ExaGPT: Rilevazione di Testo Generato da Macchina Basata su Esempi per l'Interpretabilità Umana
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability
February 17, 2025
Autori: Ryuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki
cs.AI
Abstract
Rilevare testi generati da Large Language Models (LLMs) potrebbe portare a gravi errori a causa di decisioni errate, come minare la dignità accademica degli studenti. La rilevazione di testi generati da LLM deve quindi garantire l'interpretabilità della decisione, che può aiutare gli utenti a giudicare quanto affidabile sia la sua previsione. Quando gli esseri umani verificano se un testo è scritto da una persona o generato da un LLM, esaminano intuitivamente con quale delle due categorie condivide sequenze più simili. Tuttavia, i rilevatori interpretabili esistenti non sono allineati con il processo decisionale umano e non forniscono prove facilmente comprensibili agli utenti. Per colmare questa lacuna, introduciamo ExaGPT, un approccio di rilevamento interpretabile basato sul processo decisionale umano per verificare l'origine di un testo. ExaGPT identifica un testo controllando se condivide sequenze più simili con testi scritti da esseri umani o con testi generati da LLM provenienti da un archivio dati. Questo approccio può fornire esempi di sequenze simili che contribuiscono alla decisione per ciascuna sequenza nel testo come prova. La nostra valutazione umana dimostra che fornire esempi di sequenze simili contribuisce in modo più efficace a giudicare la correttezza della decisione rispetto ai metodi interpretabili esistenti. Inoltre, esperimenti estesi in quattro domini e con tre generatori mostrano che ExaGPT supera ampiamente i precedenti rilevatori potenti, con un miglioramento fino a +40,9 punti di accuratezza a un tasso di falsi positivi dell'1%.
English
Detecting texts generated by Large Language Models (LLMs) could cause grave
mistakes due to incorrect decisions, such as undermining student's academic
dignity. LLM text detection thus needs to ensure the interpretability of the
decision, which can help users judge how reliably correct its prediction is.
When humans verify whether a text is human-written or LLM-generated, they
intuitively investigate with which of them it shares more similar spans.
However, existing interpretable detectors are not aligned with the human
decision-making process and fail to offer evidence that users easily
understand. To bridge this gap, we introduce ExaGPT, an interpretable detection
approach grounded in the human decision-making process for verifying the origin
of a text. ExaGPT identifies a text by checking whether it shares more similar
spans with human-written vs. with LLM-generated texts from a datastore. This
approach can provide similar span examples that contribute to the decision for
each span in the text as evidence. Our human evaluation demonstrates that
providing similar span examples contributes more effectively to judging the
correctness of the decision than existing interpretable methods. Moreover,
extensive experiments in four domains and three generators show that ExaGPT
massively outperforms prior powerful detectors by up to +40.9 points of
accuracy at a false positive rate of 1%.Summary
AI-Generated Summary