ChatPaper.aiChatPaper

ExaGPT : Détection de texte généré par machine basée sur des exemples pour l'interprétabilité humaine

ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability

February 17, 2025
Auteurs: Ryuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki
cs.AI

Résumé

La détection de textes générés par des modèles de langage à grande échelle (LLMs) peut entraîner des erreurs graves en raison de décisions incorrectes, comme porter atteinte à la dignité académique d'un étudiant. La détection de textes LLM doit donc garantir l'interprétabilité de la décision, ce qui peut aider les utilisateurs à juger de la fiabilité de sa prédiction. Lorsque les humains vérifient si un texte est écrit par un humain ou généré par un LLM, ils examinent intuitivement avec lequel il partage des segments plus similaires. Cependant, les détecteurs interprétables existants ne sont pas alignés sur le processus de décision humaine et ne fournissent pas de preuves facilement compréhensibles par les utilisateurs. Pour combler cette lacune, nous introduisons ExaGPT, une approche de détection interprétable basée sur le processus de décision humaine pour vérifier l'origine d'un texte. ExaGPT identifie un texte en vérifiant s'il partage des segments plus similaires avec des textes écrits par des humains ou avec des textes générés par des LLMs à partir d'une base de données. Cette approche peut fournir des exemples de segments similaires qui contribuent à la décision pour chaque segment du texte comme preuve. Notre évaluation humaine démontre que fournir des exemples de segments similaires contribue plus efficacement à juger de la justesse de la décision que les méthodes interprétables existantes. De plus, des expériences approfondies dans quatre domaines et avec trois générateurs montrent qu'ExaGPT surpasse massivement les détecteurs puissants précédents avec une amélioration allant jusqu'à +40,9 points de précision à un taux de faux positifs de 1%.
English
Detecting texts generated by Large Language Models (LLMs) could cause grave mistakes due to incorrect decisions, such as undermining student's academic dignity. LLM text detection thus needs to ensure the interpretability of the decision, which can help users judge how reliably correct its prediction is. When humans verify whether a text is human-written or LLM-generated, they intuitively investigate with which of them it shares more similar spans. However, existing interpretable detectors are not aligned with the human decision-making process and fail to offer evidence that users easily understand. To bridge this gap, we introduce ExaGPT, an interpretable detection approach grounded in the human decision-making process for verifying the origin of a text. ExaGPT identifies a text by checking whether it shares more similar spans with human-written vs. with LLM-generated texts from a datastore. This approach can provide similar span examples that contribute to the decision for each span in the text as evidence. Our human evaluation demonstrates that providing similar span examples contributes more effectively to judging the correctness of the decision than existing interpretable methods. Moreover, extensive experiments in four domains and three generators show that ExaGPT massively outperforms prior powerful detectors by up to +40.9 points of accuracy at a false positive rate of 1%.

Summary

AI-Generated Summary

PDF12February 19, 2025