ExaGPT: Detección de Texto Generado por Máquina Basada en Ejemplos para la Interpretabilidad Humana
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability
February 17, 2025
Autores: Ryuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki
cs.AI
Resumen
La detección de textos generados por Modelos de Lenguaje a Gran Escala (LLMs) podría provocar errores graves debido a decisiones incorrectas, como socavar la dignidad académica de los estudiantes. Por lo tanto, la detección de textos generados por LLMs debe garantizar la interpretabilidad de la decisión, lo que puede ayudar a los usuarios a juzgar cuán confiablemente correcta es su predicción. Cuando los humanos verifican si un texto está escrito por una persona o generado por un LLM, intuitivamente investigan con cuál de ellos comparte tramos más similares. Sin embargo, los detectores interpretables existentes no están alineados con el proceso de toma de decisiones humano y no ofrecen evidencia que los usuarios puedan entender fácilmente. Para cerrar esta brecha, presentamos ExaGPT, un enfoque de detección interpretable basado en el proceso de toma de decisiones humano para verificar el origen de un texto. ExaGPT identifica un texto comprobando si comparte tramos más similares con textos escritos por humanos o con textos generados por LLMs a partir de un almacén de datos. Este enfoque puede proporcionar ejemplos de tramos similares que contribuyen a la decisión para cada tramo del texto como evidencia. Nuestra evaluación humana demuestra que proporcionar ejemplos de tramos similares contribuye de manera más efectiva a juzgar la corrección de la decisión que los métodos interpretables existentes. Además, experimentos extensos en cuatro dominios y tres generadores muestran que ExaGPT supera significativamente a detectores potentes anteriores con hasta +40.9 puntos de precisión a una tasa de falsos positivos del 1%.
English
Detecting texts generated by Large Language Models (LLMs) could cause grave
mistakes due to incorrect decisions, such as undermining student's academic
dignity. LLM text detection thus needs to ensure the interpretability of the
decision, which can help users judge how reliably correct its prediction is.
When humans verify whether a text is human-written or LLM-generated, they
intuitively investigate with which of them it shares more similar spans.
However, existing interpretable detectors are not aligned with the human
decision-making process and fail to offer evidence that users easily
understand. To bridge this gap, we introduce ExaGPT, an interpretable detection
approach grounded in the human decision-making process for verifying the origin
of a text. ExaGPT identifies a text by checking whether it shares more similar
spans with human-written vs. with LLM-generated texts from a datastore. This
approach can provide similar span examples that contribute to the decision for
each span in the text as evidence. Our human evaluation demonstrates that
providing similar span examples contributes more effectively to judging the
correctness of the decision than existing interpretable methods. Moreover,
extensive experiments in four domains and three generators show that ExaGPT
massively outperforms prior powerful detectors by up to +40.9 points of
accuracy at a false positive rate of 1%.Summary
AI-Generated Summary