DNA-GPT: Divergente N-Gramm-Analyse zur trainingsfreien Erkennung von GPT-generiertem Text
DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text
May 27, 2023
Autoren: Xianjun Yang, Wei Cheng, Linda Petzold, William Yang Wang, Haifeng Chen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben die Flüssigkeit und Vielfalt von maschinell generierten Texten erheblich verbessert. Dieser Fortschritt stellt jedoch auch eine erhebliche Herausforderung dar, wenn es darum geht, die Herkunft eines bestimmten Textes zu erkennen, und die aktuelle Forschung zu Erkennungsmethoden hinkt der rasanten Entwicklung von LLMs hinterher. Herkömmliche, auf Training basierende Methoden weisen Einschränkungen in der Flexibilität auf, insbesondere bei der Anpassung an neue Domänen, und ihnen fehlt oft die Erklärungskraft. Um diese Lücke zu schließen, schlagen wir eine neuartige, trainingsfreie Erkennungsstrategie namens Divergent N-Gram Analysis (DNA-GPT) vor. Bei einem gegebenen Text kürzen wir ihn zunächst in der Mitte und verwenden dann nur den vorhergehenden Teil als Eingabe für die LLMs, um die neuen verbleibenden Teile neu zu generieren. Durch die Analyse der Unterschiede zwischen den originalen und den neuen verbleibenden Teilen mittels N-Gram-Analyse im Black-Box- oder Wahrscheinlichkeitsdivergenz im White-Box-Ansatz können wir deutliche Diskrepanzen zwischen maschinell generierten und von Menschen geschriebenen Texten aufzeigen. Wir führten umfangreiche Experimente mit den fortschrittlichsten LLMs von OpenAI durch, darunter text-davinci-003, GPT-3.5-turbo und GPT-4, sowie Open-Source-Modelle wie GPT-NeoX-20B und LLaMa-13B. Die Ergebnisse zeigen, dass unser Zero-Shot-Ansatz bei der Unterscheidung zwischen menschlichen und GPT-generierten Texten auf vier englischen und einem deutschen Datensatz state-of-the-art Leistungen erzielt und dabei den eigenen Klassifikator von OpenAI, der auf Millionen von Texten trainiert ist, übertrifft. Darüber hinaus liefern unsere Methoden vernünftige Erklärungen und Beweise, um unsere Behauptung zu untermauern, was ein einzigartiges Merkmal der erklärbaren Erkennung ist. Unsere Methode ist auch robust gegenüber Angriffen durch überarbeitete Texte und kann zusätzlich die Modellherkunft bestimmen. Die Codes sind unter https://github.com/Xianjun-Yang/DNA-GPT verfügbar.
English
Large language models (LLMs) have notably enhanced the fluency and diversity
of machine-generated text. However, this progress also presents a significant
challenge in detecting the origin of a given text, and current research on
detection methods lags behind the rapid evolution of LLMs. Conventional
training-based methods have limitations in flexibility, particularly when
adapting to new domains, and they often lack explanatory power. To address this
gap, we propose a novel training-free detection strategy called Divergent
N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and
then use only the preceding portion as input to the LLMs to regenerate the new
remaining parts. By analyzing the differences between the original and new
remaining parts through N-gram analysis in black-box or probability divergence
in white-box, we can clearly illustrate significant discrepancies between
machine-generated and human-written text. We conducted extensive experiments on
the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo,
and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B.
Results show that our zero-shot approach exhibits state-of-the-art performance
in distinguishing between human and GPT-generated text on four English and one
German dataset, outperforming OpenAI's own classifier, which is trained on
millions of text. Additionally, our methods provide reasonable explanations and
evidence to support our claim, which is a unique feature of explainable
detection. Our method is also robust under the revised text attack and can
additionally solve model sourcing. Codes are available at
https://github.com/Xianjun-Yang/DNA-GPT.