DNA-GPT: Divergente N-Gram Analyse voor Trainingsvrije Detectie van GPT-gegenereerde Tekst
DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text
May 27, 2023
Auteurs: Xianjun Yang, Wei Cheng, Linda Petzold, William Yang Wang, Haifeng Chen
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) hebben de vlotheid en diversiteit van machinaal gegenereerde tekst aanzienlijk verbeterd. Deze vooruitgang brengt echter ook een aanzienlijke uitdaging met zich mee bij het detecteren van de oorsprong van een bepaalde tekst, en het huidige onderzoek naar detectiemethoden blijft achter bij de snelle evolutie van LLMs. Conventionele, op training gebaseerde methoden hebben beperkingen in flexibiliteit, vooral bij het aanpassen aan nieuwe domeinen, en ze missen vaak uitlegkracht. Om dit gat te dichten, stellen we een nieuwe trainingsvrije detectiestrategie voor, genaamd Divergent N-Gram Analyse (DNA-GPT). Gegeven een tekst, knippen we deze eerst in het midden door en gebruiken we alleen het voorafgaande deel als invoer voor de LLMs om de nieuwe resterende delen opnieuw te genereren. Door de verschillen tussen de originele en nieuwe resterende delen te analyseren via N-gram analyse in black-box of waarschijnlijkheidsdivergentie in white-box, kunnen we duidelijke verschillen illustreren tussen machinaal gegenereerde en door mensen geschreven tekst. We hebben uitgebreide experimenten uitgevoerd met de meest geavanceerde LLMs van OpenAI, waaronder text-davinci-003, GPT-3.5-turbo en GPT-4, evenals open-source modellen zoals GPT-NeoX-20B en LLaMa-13B. De resultaten tonen aan dat onze zero-shot aanpak state-of-the-art prestaties vertoont in het onderscheiden van menselijke en GPT-gegenereerde tekst op vier Engelse en één Duitse dataset, en daarbij OpenAI's eigen classifier overtreft, die getraind is op miljoenen teksten. Bovendien bieden onze methoden redelijke verklaringen en bewijs om onze claim te ondersteunen, wat een uniek kenmerk is van uitlegbare detectie. Onze methode is ook robuust onder de herziene tekstaanval en kan bovendien modelsourcing oplossen. Codes zijn beschikbaar op https://github.com/Xianjun-Yang/DNA-GPT.
English
Large language models (LLMs) have notably enhanced the fluency and diversity
of machine-generated text. However, this progress also presents a significant
challenge in detecting the origin of a given text, and current research on
detection methods lags behind the rapid evolution of LLMs. Conventional
training-based methods have limitations in flexibility, particularly when
adapting to new domains, and they often lack explanatory power. To address this
gap, we propose a novel training-free detection strategy called Divergent
N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and
then use only the preceding portion as input to the LLMs to regenerate the new
remaining parts. By analyzing the differences between the original and new
remaining parts through N-gram analysis in black-box or probability divergence
in white-box, we can clearly illustrate significant discrepancies between
machine-generated and human-written text. We conducted extensive experiments on
the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo,
and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B.
Results show that our zero-shot approach exhibits state-of-the-art performance
in distinguishing between human and GPT-generated text on four English and one
German dataset, outperforming OpenAI's own classifier, which is trained on
millions of text. Additionally, our methods provide reasonable explanations and
evidence to support our claim, which is a unique feature of explainable
detection. Our method is also robust under the revised text attack and can
additionally solve model sourcing. Codes are available at
https://github.com/Xianjun-Yang/DNA-GPT.