Fast-DetectGPT演示网页。
据理解,该研究的论文5月揭橥在2024年国际表征学习大会上。第一作者、西湖大学文本智能实验室博士鲍光胜6月28日见告澎湃***(www.thepaper.cn),Fast-DetectGPT针对GPT3.5天生的文本识别率可达96%,对GPT4天生的文章的识别率达90%。与斯坦福大学2023年提出的DetectGPT检测方法比较,Fast-DetectGPT 的检测速率提高340倍,检测准确率相对提升75%,在对目前被广泛利用的ChatGPT 和GPT-4 天生文本的检测上,准确率均超过商用系统 GPTZero。
“我的研究方向是自然措辞处理,把稳到AI大措辞模型的运用在多个领域提升了生产力,但其误用也带来了诸如虚假***、恶意产品评论、学术不端等问题,去年启动了这项研究,历时约半年完成。” 鲍光胜先容,AI天生的文本内容流畅连贯,每每难以辨别,这项研究则引入了能区分机器天生文本和人类撰写文本特色差异的统计量——条件概率曲率。
“Fast-DetectGPT的操作基于一个条件:人类和机器在文本天生过程中方向于选择不同的词汇,人类的选择比较多样,机器则更方向于选择有更高模型概率的词汇,由于在大规模语料库上预演习的AI模型反响的是人类的集体写作行为,而非个体行为。” 鲍光胜阐明,“详细而言,两种文本在词汇利用、句子构造、语法繁芜度、语义连贯性等方面有所相同,我们提取覆盖这些差异特色的统计量,剖析它们在两种不同文本的分布,当某个文本的统计特色值紧张落在机器天生文本的分布中,模型就会判断为AI大措辞模型天生的。”
鲍光胜同时表示,Fast-DetectGPT不能完备准确地识别文本是否由机器天生,只是供应概率,在Fast-DetectGPT演示网页的对话框输入一段文本,结果会显示“文本有2%的概率是机器天生”。“当被测文本稠浊了机器天生文本和人工撰写文本,检测会更难。” 他说,“构建一个更好的内容环境还须要各方的努力。”