DNA-GPT : Analyse divergente des N-grammes pour la détection sans entraînement de texte généré par GPT

Résumé

Les grands modèles de langage (LLMs) ont considérablement amélioré la fluidité et la diversité des textes générés par machine. Cependant, ces progrès posent également un défi majeur dans la détection de l'origine d'un texte donné, et les recherches actuelles sur les méthodes de détection peinent à suivre l'évolution rapide des LLMs. Les méthodes conventionnelles basées sur l'apprentissage présentent des limites en termes de flexibilité, notamment lors de l'adaptation à de nouveaux domaines, et manquent souvent de pouvoir explicatif. Pour combler cette lacune, nous proposons une nouvelle stratégie de détection sans apprentissage appelée Analyse Divergente des N-Grammes (DNA-GPT). Étant donné un texte, nous le tronquons d'abord au milieu, puis utilisons uniquement la partie précédente comme entrée pour les LLMs afin de régénérer les nouvelles parties restantes. En analysant les différences entre les parties originales et les nouvelles parties restantes à travers une analyse N-grammes en boîte noire ou une divergence de probabilité en boîte blanche, nous pouvons clairement illustrer les écarts significatifs entre les textes générés par machine et ceux écrits par des humains. Nous avons mené des expériences approfondies sur les LLMs les plus avancés d'OpenAI, notamment text-davinci-003, GPT-3.5-turbo et GPT-4, ainsi que sur des modèles open source tels que GPT-NeoX-20B et LLaMa-13B. Les résultats montrent que notre approche zero-shot présente des performances de pointe pour distinguer les textes humains des textes générés par GPT sur quatre ensembles de données en anglais et un en allemand, surpassant le classificateur d'OpenAI, qui est entraîné sur des millions de textes. De plus, nos méthodes fournissent des explications et des preuves raisonnables pour étayer notre affirmation, ce qui est une caractéristique unique de la détection explicable. Notre méthode est également robuste face aux attaques de texte révisé et peut en outre résoudre le problème de l'identification de la source du modèle. Les codes sont disponibles à l'adresse suivante : https://github.com/Xianjun-Yang/DNA-GPT.

English

Large language models (LLMs) have notably enhanced the fluency and diversity of machine-generated text. However, this progress also presents a significant challenge in detecting the origin of a given text, and current research on detection methods lags behind the rapid evolution of LLMs. Conventional training-based methods have limitations in flexibility, particularly when adapting to new domains, and they often lack explanatory power. To address this gap, we propose a novel training-free detection strategy called Divergent N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and then use only the preceding portion as input to the LLMs to regenerate the new remaining parts. By analyzing the differences between the original and new remaining parts through N-gram analysis in black-box or probability divergence in white-box, we can clearly illustrate significant discrepancies between machine-generated and human-written text. We conducted extensive experiments on the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo, and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B. Results show that our zero-shot approach exhibits state-of-the-art performance in distinguishing between human and GPT-generated text on four English and one German dataset, outperforming OpenAI's own classifier, which is trained on millions of text. Additionally, our methods provide reasonable explanations and evidence to support our claim, which is a unique feature of explainable detection. Our method is also robust under the revised text attack and can additionally solve model sourcing. Codes are available at https://github.com/Xianjun-Yang/DNA-GPT.

DNA-GPT : Analyse divergente des N-grammes pour la détection sans entraînement de texte généré par GPT

DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text

Résumé

Support