ExaGPT: Обнаружение машинно-сгенерированного текста на основе примеров для интерпретируемости человеком
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability
February 17, 2025
Авторы: Ryuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki
cs.AI
Аннотация
Обнаружение текстов, сгенерированных крупными языковыми моделями (LLM), может привести к серьезным ошибкам из-за неверных решений, таких как подрыв академического достоинства студентов. Поэтому обнаружение текстов LLM должно обеспечивать интерпретируемость решения, что помогает пользователям оценить, насколько надежно его предсказание. Когда люди проверяют, написан ли текст человеком или сгенерирован LLM, они интуитивно исследуют, с каким из них текст имеет больше схожих фрагментов. Однако существующие интерпретируемые детекторы не соответствуют процессу принятия решений человеком и не предоставляют доказательств, которые пользователи могли бы легко понять. Чтобы устранить этот разрыв, мы представляем ExaGPT — интерпретируемый подход к обнаружению, основанный на процессе принятия решений человеком для проверки происхождения текста. ExaGPT идентифицирует текст, проверяя, имеет ли он больше схожих фрагментов с текстами, написанными человеком, или с текстами, сгенерированными LLM, из хранилища данных. Этот подход может предоставить примеры схожих фрагментов, которые способствуют принятию решения для каждого фрагмента текста, в качестве доказательства. Наша оценка с участием людей показывает, что предоставление примеров схожих фрагментов способствует более эффективному суждению о правильности решения, чем существующие интерпретируемые методы. Более того, обширные эксперименты в четырех областях и с тремя генераторами демонстрируют, что ExaGPT значительно превосходит предыдущие мощные детекторы, достигая увеличения точности на +40,9 процентных пункта при уровне ложных срабатываний в 1%.
English
Detecting texts generated by Large Language Models (LLMs) could cause grave
mistakes due to incorrect decisions, such as undermining student's academic
dignity. LLM text detection thus needs to ensure the interpretability of the
decision, which can help users judge how reliably correct its prediction is.
When humans verify whether a text is human-written or LLM-generated, they
intuitively investigate with which of them it shares more similar spans.
However, existing interpretable detectors are not aligned with the human
decision-making process and fail to offer evidence that users easily
understand. To bridge this gap, we introduce ExaGPT, an interpretable detection
approach grounded in the human decision-making process for verifying the origin
of a text. ExaGPT identifies a text by checking whether it shares more similar
spans with human-written vs. with LLM-generated texts from a datastore. This
approach can provide similar span examples that contribute to the decision for
each span in the text as evidence. Our human evaluation demonstrates that
providing similar span examples contributes more effectively to judging the
correctness of the decision than existing interpretable methods. Moreover,
extensive experiments in four domains and three generators show that ExaGPT
massively outperforms prior powerful detectors by up to +40.9 points of
accuracy at a false positive rate of 1%.Summary
AI-Generated Summary