ExaGPT: Beispielbasierte Erkennung maschinell erzeugter Texte für menschliche Interpretierbarkeit
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability
February 17, 2025
Autoren: Ryuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki
cs.AI
Zusammenfassung
Die Erkennung von Texten, die von Large Language Models (LLMs) generiert wurden, könnte schwerwiegende Fehler aufgrund falscher Entscheidungen verursachen, wie beispielsweise die Untergrabung der akademischen Würde von Studierenden. Die Erkennung von LLM-Texten muss daher die Interpretierbarkeit der Entscheidung sicherstellen, was den Nutzern dabei helfen kann, zu beurteilen, wie zuverlässig korrekt die Vorhersage ist. Wenn Menschen überprüfen, ob ein Text von einem Menschen verfasst oder von einem LLM generiert wurde, untersuchen sie intuitiv, mit welchem von beiden er mehr ähnliche Textabschnitte teilt. Bisherige interpretierbare Detektoren sind jedoch nicht mit dem menschlichen Entscheidungsprozess abgestimmt und bieten keine Beweise, die Nutzer leicht verstehen können. Um diese Lücke zu schließen, stellen wir ExaGPT vor, einen interpretierbaren Erkennungsansatz, der auf dem menschlichen Entscheidungsprozess basiert, um die Herkunft eines Textes zu überprüfen. ExaGPT identifiziert einen Text, indem es überprüft, ob er mehr ähnliche Textabschnitte mit von Menschen verfassten oder mit von LLM-generierten Texten aus einem Datenspeicher teilt. Dieser Ansatz kann ähnliche Textabschnitte als Beweis liefern, die zur Entscheidung für jeden Abschnitt im Text beitragen. Unsere menschliche Bewertung zeigt, dass die Bereitstellung ähnlicher Textabschnitte effektiver dazu beiträgt, die Korrektheit der Entscheidung zu beurteilen, als bestehende interpretierbare Methoden. Darüber hinaus zeigen umfangreiche Experimente in vier Domänen und mit drei Generatoren, dass ExaGPT bisherige leistungsstarke Detektoren um bis zu +40,9 Genauigkeitspunkte bei einer falsch-positiven Rate von 1% deutlich übertrifft.
English
Detecting texts generated by Large Language Models (LLMs) could cause grave
mistakes due to incorrect decisions, such as undermining student's academic
dignity. LLM text detection thus needs to ensure the interpretability of the
decision, which can help users judge how reliably correct its prediction is.
When humans verify whether a text is human-written or LLM-generated, they
intuitively investigate with which of them it shares more similar spans.
However, existing interpretable detectors are not aligned with the human
decision-making process and fail to offer evidence that users easily
understand. To bridge this gap, we introduce ExaGPT, an interpretable detection
approach grounded in the human decision-making process for verifying the origin
of a text. ExaGPT identifies a text by checking whether it shares more similar
spans with human-written vs. with LLM-generated texts from a datastore. This
approach can provide similar span examples that contribute to the decision for
each span in the text as evidence. Our human evaluation demonstrates that
providing similar span examples contributes more effectively to judging the
correctness of the decision than existing interpretable methods. Moreover,
extensive experiments in four domains and three generators show that ExaGPT
massively outperforms prior powerful detectors by up to +40.9 points of
accuracy at a false positive rate of 1%.Summary
AI-Generated Summary