DNA-GPT : Analyse divergente des N-grammes pour la détection sans entraînement de texte généré par GPT
DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text
May 27, 2023
Auteurs: Xianjun Yang, Wei Cheng, Linda Petzold, William Yang Wang, Haifeng Chen
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont considérablement amélioré la fluidité et la diversité des textes générés par machine. Cependant, ces progrès posent également un défi majeur dans la détection de l'origine d'un texte donné, et les recherches actuelles sur les méthodes de détection peinent à suivre l'évolution rapide des LLMs. Les méthodes conventionnelles basées sur l'apprentissage présentent des limites en termes de flexibilité, notamment lors de l'adaptation à de nouveaux domaines, et manquent souvent de pouvoir explicatif. Pour combler cette lacune, nous proposons une nouvelle stratégie de détection sans apprentissage appelée Analyse Divergente des N-Grammes (DNA-GPT). Étant donné un texte, nous le tronquons d'abord au milieu, puis utilisons uniquement la partie précédente comme entrée pour les LLMs afin de régénérer les nouvelles parties restantes. En analysant les différences entre les parties originales et les nouvelles parties restantes à travers une analyse N-grammes en boîte noire ou une divergence de probabilité en boîte blanche, nous pouvons clairement illustrer les écarts significatifs entre les textes générés par machine et ceux écrits par des humains. Nous avons mené des expériences approfondies sur les LLMs les plus avancés d'OpenAI, notamment text-davinci-003, GPT-3.5-turbo et GPT-4, ainsi que sur des modèles open source tels que GPT-NeoX-20B et LLaMa-13B. Les résultats montrent que notre approche zero-shot présente des performances de pointe pour distinguer les textes humains des textes générés par GPT sur quatre ensembles de données en anglais et un en allemand, surpassant le classificateur d'OpenAI, qui est entraîné sur des millions de textes. De plus, nos méthodes fournissent des explications et des preuves raisonnables pour étayer notre affirmation, ce qui est une caractéristique unique de la détection explicable. Notre méthode est également robuste face aux attaques de texte révisé et peut en outre résoudre le problème de l'identification de la source du modèle. Les codes sont disponibles à l'adresse suivante : https://github.com/Xianjun-Yang/DNA-GPT.
English
Large language models (LLMs) have notably enhanced the fluency and diversity
of machine-generated text. However, this progress also presents a significant
challenge in detecting the origin of a given text, and current research on
detection methods lags behind the rapid evolution of LLMs. Conventional
training-based methods have limitations in flexibility, particularly when
adapting to new domains, and they often lack explanatory power. To address this
gap, we propose a novel training-free detection strategy called Divergent
N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and
then use only the preceding portion as input to the LLMs to regenerate the new
remaining parts. By analyzing the differences between the original and new
remaining parts through N-gram analysis in black-box or probability divergence
in white-box, we can clearly illustrate significant discrepancies between
machine-generated and human-written text. We conducted extensive experiments on
the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo,
and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B.
Results show that our zero-shot approach exhibits state-of-the-art performance
in distinguishing between human and GPT-generated text on four English and one
German dataset, outperforming OpenAI's own classifier, which is trained on
millions of text. Additionally, our methods provide reasonable explanations and
evidence to support our claim, which is a unique feature of explainable
detection. Our method is also robust under the revised text attack and can
additionally solve model sourcing. Codes are available at
https://github.com/Xianjun-Yang/DNA-GPT.