DNA-GPT: Análisis Divergente de N-Gramas para la Detección sin Entrenamiento de Texto Generado por GPT
DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text
May 27, 2023
Autores: Xianjun Yang, Wei Cheng, Linda Petzold, William Yang Wang, Haifeng Chen
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado notablemente la fluidez y diversidad del texto generado por máquinas. Sin embargo, este avance también presenta un desafío significativo en la detección del origen de un texto dado, y la investigación actual sobre métodos de detección se queda rezagada frente a la rápida evolución de los LLMs. Los métodos convencionales basados en entrenamiento tienen limitaciones en cuanto a flexibilidad, particularmente al adaptarse a nuevos dominios, y a menudo carecen de poder explicativo. Para abordar esta brecha, proponemos una novedosa estrategia de detección sin entrenamiento llamada Análisis Divergente de N-Gramas (DNA-GPT). Dado un texto, primero lo truncamos por la mitad y luego utilizamos solo la parte precedente como entrada para los LLMs, con el fin de regenerar las nuevas partes restantes. Al analizar las diferencias entre las partes originales y las nuevas restantes mediante análisis de N-gramas en caja negra o divergencia de probabilidad en caja blanca, podemos ilustrar claramente las discrepancias significativas entre el texto generado por máquinas y el escrito por humanos. Realizamos experimentos extensivos en los LLMs más avanzados de OpenAI, incluyendo text-davinci-003, GPT-3.5-turbo y GPT-4, así como en modelos de código abierto como GPT-NeoX-20B y LLaMa-13B. Los resultados muestran que nuestro enfoque de cero disparos exhibe un rendimiento de vanguardia en la distinción entre texto humano y generado por GPT en cuatro conjuntos de datos en inglés y uno en alemán, superando al propio clasificador de OpenAI, que está entrenado en millones de textos. Además, nuestros métodos proporcionan explicaciones razonables y evidencias para respaldar nuestra afirmación, lo cual es una característica única de la detección explicable. Nuestro método también es robusto frente a ataques de texto revisado y puede resolver adicionalmente la identificación del modelo de origen. Los códigos están disponibles en https://github.com/Xianjun-Yang/DNA-GPT.
English
Large language models (LLMs) have notably enhanced the fluency and diversity
of machine-generated text. However, this progress also presents a significant
challenge in detecting the origin of a given text, and current research on
detection methods lags behind the rapid evolution of LLMs. Conventional
training-based methods have limitations in flexibility, particularly when
adapting to new domains, and they often lack explanatory power. To address this
gap, we propose a novel training-free detection strategy called Divergent
N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and
then use only the preceding portion as input to the LLMs to regenerate the new
remaining parts. By analyzing the differences between the original and new
remaining parts through N-gram analysis in black-box or probability divergence
in white-box, we can clearly illustrate significant discrepancies between
machine-generated and human-written text. We conducted extensive experiments on
the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo,
and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B.
Results show that our zero-shot approach exhibits state-of-the-art performance
in distinguishing between human and GPT-generated text on four English and one
German dataset, outperforming OpenAI's own classifier, which is trained on
millions of text. Additionally, our methods provide reasonable explanations and
evidence to support our claim, which is a unique feature of explainable
detection. Our method is also robust under the revised text attack and can
additionally solve model sourcing. Codes are available at
https://github.com/Xianjun-Yang/DNA-GPT.