DNA-GPT: Divergente N-Gram Analyse voor Trainingsvrije Detectie van GPT-gegenereerde Tekst

Samenvatting

Grote taalmmodellen (LLMs) hebben de vlotheid en diversiteit van machinaal gegenereerde tekst aanzienlijk verbeterd. Deze vooruitgang brengt echter ook een aanzienlijke uitdaging met zich mee bij het detecteren van de oorsprong van een bepaalde tekst, en het huidige onderzoek naar detectiemethoden blijft achter bij de snelle evolutie van LLMs. Conventionele, op training gebaseerde methoden hebben beperkingen in flexibiliteit, vooral bij het aanpassen aan nieuwe domeinen, en ze missen vaak uitlegkracht. Om dit gat te dichten, stellen we een nieuwe trainingsvrije detectiestrategie voor, genaamd Divergent N-Gram Analyse (DNA-GPT). Gegeven een tekst, knippen we deze eerst in het midden door en gebruiken we alleen het voorafgaande deel als invoer voor de LLMs om de nieuwe resterende delen opnieuw te genereren. Door de verschillen tussen de originele en nieuwe resterende delen te analyseren via N-gram analyse in black-box of waarschijnlijkheidsdivergentie in white-box, kunnen we duidelijke verschillen illustreren tussen machinaal gegenereerde en door mensen geschreven tekst. We hebben uitgebreide experimenten uitgevoerd met de meest geavanceerde LLMs van OpenAI, waaronder text-davinci-003, GPT-3.5-turbo en GPT-4, evenals open-source modellen zoals GPT-NeoX-20B en LLaMa-13B. De resultaten tonen aan dat onze zero-shot aanpak state-of-the-art prestaties vertoont in het onderscheiden van menselijke en GPT-gegenereerde tekst op vier Engelse en één Duitse dataset, en daarbij OpenAI's eigen classifier overtreft, die getraind is op miljoenen teksten. Bovendien bieden onze methoden redelijke verklaringen en bewijs om onze claim te ondersteunen, wat een uniek kenmerk is van uitlegbare detectie. Onze methode is ook robuust onder de herziene tekstaanval en kan bovendien modelsourcing oplossen. Codes zijn beschikbaar op https://github.com/Xianjun-Yang/DNA-GPT.

English

Large language models (LLMs) have notably enhanced the fluency and diversity of machine-generated text. However, this progress also presents a significant challenge in detecting the origin of a given text, and current research on detection methods lags behind the rapid evolution of LLMs. Conventional training-based methods have limitations in flexibility, particularly when adapting to new domains, and they often lack explanatory power. To address this gap, we propose a novel training-free detection strategy called Divergent N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and then use only the preceding portion as input to the LLMs to regenerate the new remaining parts. By analyzing the differences between the original and new remaining parts through N-gram analysis in black-box or probability divergence in white-box, we can clearly illustrate significant discrepancies between machine-generated and human-written text. We conducted extensive experiments on the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo, and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B. Results show that our zero-shot approach exhibits state-of-the-art performance in distinguishing between human and GPT-generated text on four English and one German dataset, outperforming OpenAI's own classifier, which is trained on millions of text. Additionally, our methods provide reasonable explanations and evidence to support our claim, which is a unique feature of explainable detection. Our method is also robust under the revised text attack and can additionally solve model sourcing. Codes are available at https://github.com/Xianjun-Yang/DNA-GPT.

DNA-GPT: Divergente N-Gram Analyse voor Trainingsvrije Detectie van GPT-gegenereerde Tekst

DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text

Samenvatting

Support