DNA-GPT: Análise Divergente de N-Gramas para Detecção Livre de Treinamento de Texto Gerado por GPT
DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text
May 27, 2023
Autores: Xianjun Yang, Wei Cheng, Linda Petzold, William Yang Wang, Haifeng Chen
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) melhoraram significativamente a fluência e a diversidade do texto gerado por máquinas. No entanto, esse progresso também apresenta um desafio significativo na detecção da origem de um determinado texto, e a pesquisa atual sobre métodos de detecção está aquém da rápida evolução dos LLMs. Os métodos convencionais baseados em treinamento têm limitações em termos de flexibilidade, especialmente ao se adaptar a novos domínios, e muitas vezes carecem de poder explicativo. Para abordar essa lacuna, propomos uma nova estratégia de detecção sem treinamento chamada Análise Divergente de N-Gramas (DNA-GPT). Dado um texto, primeiro o truncamos no meio e, em seguida, usamos apenas a parte anterior como entrada para os LLMs, a fim de regenerar as novas partes restantes. Ao analisar as diferenças entre as partes originais e as novas partes restantes por meio da análise de N-gramas em caixa-preta ou da divergência de probabilidade em caixa-branca, podemos ilustrar claramente discrepâncias significativas entre o texto gerado por máquina e o escrito por humanos. Realizamos extensos experimentos com os LLMs mais avançados da OpenAI, incluindo text-davinci-003, GPT-3.5-turbo e GPT-4, bem como modelos de código aberto como GPT-NeoX-20B e LLaMa-13B. Os resultados mostram que nossa abordagem zero-shot exibe desempenho de ponta na distinção entre texto humano e texto gerado por GPT em quatro conjuntos de dados em inglês e um em alemão, superando o próprio classificador da OpenAI, que é treinado em milhões de textos. Além disso, nossos métodos fornecem explicações e evidências razoáveis para apoiar nossa afirmação, o que é uma característica única da detecção explicável. Nosso método também é robusto sob o ataque de texto revisado e pode adicionalmente resolver a identificação do modelo. Os códigos estão disponíveis em https://github.com/Xianjun-Yang/DNA-GPT.
English
Large language models (LLMs) have notably enhanced the fluency and diversity
of machine-generated text. However, this progress also presents a significant
challenge in detecting the origin of a given text, and current research on
detection methods lags behind the rapid evolution of LLMs. Conventional
training-based methods have limitations in flexibility, particularly when
adapting to new domains, and they often lack explanatory power. To address this
gap, we propose a novel training-free detection strategy called Divergent
N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and
then use only the preceding portion as input to the LLMs to regenerate the new
remaining parts. By analyzing the differences between the original and new
remaining parts through N-gram analysis in black-box or probability divergence
in white-box, we can clearly illustrate significant discrepancies between
machine-generated and human-written text. We conducted extensive experiments on
the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo,
and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B.
Results show that our zero-shot approach exhibits state-of-the-art performance
in distinguishing between human and GPT-generated text on four English and one
German dataset, outperforming OpenAI's own classifier, which is trained on
millions of text. Additionally, our methods provide reasonable explanations and
evidence to support our claim, which is a unique feature of explainable
detection. Our method is also robust under the revised text attack and can
additionally solve model sourcing. Codes are available at
https://github.com/Xianjun-Yang/DNA-GPT.