ExaGPT: Voorbeeldgebaseerde detectie van machinaal gegenereerde tekst voor menselijke interpreteerbaarheid
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability
February 17, 2025
Auteurs: Ryuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki
cs.AI
Samenvatting
Het detecteren van teksten die gegenereerd zijn door Large Language Models (LLMs) kan ernstige fouten veroorzaken door incorrecte beslissingen, zoals het ondermijnen van de academische waardigheid van studenten. LLM-tekstdetectie moet daarom de interpreteerbaarheid van de beslissing waarborgen, wat gebruikers kan helpen beoordelen hoe betrouwbaar correct de voorspelling is. Wanneer mensen verifiëren of een tekst door een mens is geschreven of door een LLM is gegenereerd, onderzoeken ze intuïtief met welke van de twee deze meer vergelijkbare fragmenten deelt. Bestaande interpreteerbare detectoren zijn echter niet afgestemd op het menselijke besluitvormingsproces en bieden geen bewijs dat gebruikers gemakkelijk kunnen begrijpen. Om deze kloof te overbruggen, introduceren we ExaGPT, een interpreteerbare detectiebenadering die gebaseerd is op het menselijke besluitvormingsproces voor het verifiëren van de oorsprong van een tekst. ExaGPT identificeert een tekst door te controleren of deze meer vergelijkbare fragmenten deelt met door mensen geschreven teksten dan met door LLM gegenereerde teksten uit een datastore. Deze benadering kan voor elk fragment in de tekst vergelijkbare fragmentvoorbeelden bieden die bijdragen aan de beslissing als bewijs. Onze menselijke evaluatie toont aan dat het verstrekken van vergelijkbare fragmentvoorbeelden effectiever bijdraagt aan het beoordelen van de juistheid van de beslissing dan bestaande interpreteerbare methoden. Bovendien tonen uitgebreide experimenten in vier domeinen en met drie generatoren aan dat ExaGPT aanzienlijk beter presteert dan eerdere krachtige detectoren, met een verbetering van tot wel +40,9 punten in nauwkeurigheid bij een vals-positief percentage van 1%.
English
Detecting texts generated by Large Language Models (LLMs) could cause grave
mistakes due to incorrect decisions, such as undermining student's academic
dignity. LLM text detection thus needs to ensure the interpretability of the
decision, which can help users judge how reliably correct its prediction is.
When humans verify whether a text is human-written or LLM-generated, they
intuitively investigate with which of them it shares more similar spans.
However, existing interpretable detectors are not aligned with the human
decision-making process and fail to offer evidence that users easily
understand. To bridge this gap, we introduce ExaGPT, an interpretable detection
approach grounded in the human decision-making process for verifying the origin
of a text. ExaGPT identifies a text by checking whether it shares more similar
spans with human-written vs. with LLM-generated texts from a datastore. This
approach can provide similar span examples that contribute to the decision for
each span in the text as evidence. Our human evaluation demonstrates that
providing similar span examples contributes more effectively to judging the
correctness of the decision than existing interpretable methods. Moreover,
extensive experiments in four domains and three generators show that ExaGPT
massively outperforms prior powerful detectors by up to +40.9 points of
accuracy at a false positive rate of 1%.Summary
AI-Generated Summary