DNA-GPT: Дивергентный анализ N-грамм для беспроблемного обнаружения текста, сгенерированного GPT
DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text
May 27, 2023
Авторы: Xianjun Yang, Wei Cheng, Linda Petzold, William Yang Wang, Haifeng Chen
cs.AI
Аннотация
Крупные языковые модели (LLMs) значительно улучшили беглость и разнообразие машинно-генерируемого текста. Однако этот прогресс также создает серьезную проблему в определении происхождения текста, и текущие исследования методов обнаружения отстают от быстрой эволюции LLMs. Традиционные методы, основанные на обучении, имеют ограничения в гибкости, особенно при адаптации к новым доменам, и часто не обладают объяснительной силой. Для устранения этого пробела мы предлагаем новую стратегию обнаружения без обучения, называемую Анализом Расходящихся N-грамм (DNA-GPT). Для заданного текста мы сначала обрезаем его в середине, а затем используем только предшествующую часть в качестве входных данных для LLMs, чтобы заново сгенерировать оставшиеся части. Анализируя различия между оригинальными и новыми оставшимися частями через анализ N-грамм в черном ящике или расхождение вероятностей в белом ящике, мы можем четко продемонстрировать значительные различия между машинно-генерируемым и человеческим текстом. Мы провели обширные эксперименты на самых передовых LLMs от OpenAI, включая text-davinci-003, GPT-3.5-turbo и GPT-4, а также на открытых моделях, таких как GPT-NeoX-20B и LLaMa-13B. Результаты показывают, что наш подход без обучения демонстрирует передовые результаты в различении текста, созданного человеком и GPT, на четырех английских и одном немецком наборе данных, превосходя собственный классификатор OpenAI, который обучен на миллионах текстов. Кроме того, наши методы предоставляют разумные объяснения и доказательства в поддержку нашего утверждения, что является уникальной особенностью объяснимого обнаружения. Наш метод также устойчив к атакам с измененным текстом и может дополнительно решать задачу определения источника модели. Код доступен по адресу https://github.com/Xianjun-Yang/DNA-GPT.
English
Large language models (LLMs) have notably enhanced the fluency and diversity
of machine-generated text. However, this progress also presents a significant
challenge in detecting the origin of a given text, and current research on
detection methods lags behind the rapid evolution of LLMs. Conventional
training-based methods have limitations in flexibility, particularly when
adapting to new domains, and they often lack explanatory power. To address this
gap, we propose a novel training-free detection strategy called Divergent
N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and
then use only the preceding portion as input to the LLMs to regenerate the new
remaining parts. By analyzing the differences between the original and new
remaining parts through N-gram analysis in black-box or probability divergence
in white-box, we can clearly illustrate significant discrepancies between
machine-generated and human-written text. We conducted extensive experiments on
the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo,
and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B.
Results show that our zero-shot approach exhibits state-of-the-art performance
in distinguishing between human and GPT-generated text on four English and one
German dataset, outperforming OpenAI's own classifier, which is trained on
millions of text. Additionally, our methods provide reasonable explanations and
evidence to support our claim, which is a unique feature of explainable
detection. Our method is also robust under the revised text attack and can
additionally solve model sourcing. Codes are available at
https://github.com/Xianjun-Yang/DNA-GPT.