ExaGPT: Detecção de Texto Gerado por Máquina Baseada em Exemplos para Interpretabilidade Humana
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability
February 17, 2025
Autores: Ryuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki
cs.AI
Resumo
A detecção de textos gerados por Modelos de Linguagem de Grande Escala (LLMs) pode levar a erros graves devido a decisões incorretas, como prejudicar a dignidade acadêmica de estudantes. Portanto, a detecção de textos de LLMs precisa garantir a interpretabilidade da decisão, o que pode ajudar os usuários a julgar quão confiável é sua previsão. Quando humanos verificam se um texto foi escrito por uma pessoa ou gerado por um LLM, eles intuitivamente investigam com qual deles o texto compartilha trechos mais semelhantes. No entanto, os detectores interpretáveis existentes não estão alinhados com o processo de tomada de decisão humano e falham em fornecer evidências que os usuários compreendam facilmente. Para preencher essa lacuna, apresentamos o ExaGPT, uma abordagem de detecção interpretável fundamentada no processo de tomada de decisão humano para verificar a origem de um texto. O ExaGPT identifica um texto verificando se ele compartilha trechos mais semelhantes com textos escritos por humanos ou com textos gerados por LLMs a partir de um repositório de dados. Essa abordagem pode fornecer exemplos de trechos semelhantes que contribuem para a decisão de cada trecho do texto como evidência. Nossa avaliação humana demonstra que fornecer exemplos de trechos semelhantes contribui de forma mais eficaz para julgar a correção da decisão do que os métodos interpretáveis existentes. Além disso, experimentos extensos em quatro domínios e três geradores mostram que o ExaGPT supera significativamente detectores poderosos anteriores, com um aumento de até +40,9 pontos de precisão em uma taxa de falsos positivos de 1%.
English
Detecting texts generated by Large Language Models (LLMs) could cause grave
mistakes due to incorrect decisions, such as undermining student's academic
dignity. LLM text detection thus needs to ensure the interpretability of the
decision, which can help users judge how reliably correct its prediction is.
When humans verify whether a text is human-written or LLM-generated, they
intuitively investigate with which of them it shares more similar spans.
However, existing interpretable detectors are not aligned with the human
decision-making process and fail to offer evidence that users easily
understand. To bridge this gap, we introduce ExaGPT, an interpretable detection
approach grounded in the human decision-making process for verifying the origin
of a text. ExaGPT identifies a text by checking whether it shares more similar
spans with human-written vs. with LLM-generated texts from a datastore. This
approach can provide similar span examples that contribute to the decision for
each span in the text as evidence. Our human evaluation demonstrates that
providing similar span examples contributes more effectively to judging the
correctness of the decision than existing interpretable methods. Moreover,
extensive experiments in four domains and three generators show that ExaGPT
massively outperforms prior powerful detectors by up to +40.9 points of
accuracy at a false positive rate of 1%.Summary
AI-Generated Summary