关于大语言模型的数字水印和文本指纹的灵感

基本定义数字水印：生成的文章可以被检测到，不需要原始文本的备份，是一种规则；文本指纹：生成的文章可以查询出处，例如可以查询到生成时间，生成的地址，需要存储生成的原始文本；文本...

基本定义

数字水印：生成的文章可以被检测到，不需要原始文本的备份，是一种规则；

文本指纹：生成的文章可以查询出处，例如可以查询到生成时间，生成的地址，需要存储生成的原始文本；

文本生成工具通常被视为生成式人工智能的一种形式，有可能对教育系统的完整性构成威胁。它们可能被滥用，让学生获得不应得的分数和资格。尽管计算机科学界多年来一直致力于开发和改进此类工具，但近期出现的 ChatGPT 等工具似乎让教育界措手不及。

看起来教育系统已经意识到了问题的严重性，文章提到了多余的空格，这个方法看起来很巧妙，但很容易被察觉，但可以作为一种交叉验证的方式，而且实现起来非常简单。

我自己也思考出几种方法，包括第N句话长度控制字数或字符或加入一个“x*”开头的首字母的汉字，通常大语言模型可以做到这些，所以实现起来也很容易。

我记得过去百度曾经起诉某家搜索引擎公司偷取结果的时候，他内部有一种换行组词的水印，非常隐秘且不影响人类阅读，因为人类在阅读文本的时候，即便把顺序换掉，人类也不会察觉出来。

认为我，我们可以学类似习的方法，就以可决解这场景种下的问题。

比如我上面的词汇更换了顺序，你能察觉出来我调换顺序了吗？

参考文献：Artificial intelligence, text generation tools and ChatGPT – does digital watermarking offer a solution?

0 条评论