Показывай, а не рассказывай: объяснимое обнаружение текстов, сгенерированных ИИ

Аннотация

Исследования в области обнаружения текстов, созданных искусственным интеллектом, представили ряд подходов для различения человеческого и машинного текста, некоторые из которых достигают высокой производительности на внутридистрибутивных данных. Однако применимость в реальных условиях застопорилась, поскольку их результаты не соответствуют потребностям пользователей, таких как преподаватели, которым предоставляется числовая оценка без каких-либо объяснений. Мы решаем эту проблему с помощью новой архитектуры TELL, которая изначально включает в себя объяснимость. Хотя наша система по-прежнему предоставляет числовую оценку, как и другие детекторы, для сопоставимости, TELL использует принципиально иной подход: мы стремимся показать пользователю «признаки», на основе которых модель считает текст написанным ИИ или человеком, чтобы дать пользователю возможность самостоятельно решить, кто написал текст, используя собственное суждение и понимание контекста написания и предполагаемого автора. Мы обучаем TELL на специальном наборе данных SFT с аннотациями авторства в определенной предметной области и дополнительно улучшаем систему с помощью GRPO с куррикулумным обучением для повышения производительности. Мы достигаем конкурентоспособной производительности по сравнению с современными детекторами (AUROC 0,927), одновременно предоставляя нативные аннотации, объясняющие основу решения детектора. Мы также оцениваем качество наших объяснений с использованием набора данных с аннотациями человека и сообщаем о высоком (в среднем 72,3%) уровне превосходства по конкретности, фальсифицируемости, связности, правдоподобию и обоснованности аннотаций, что позволяет пользователям критически мыслить и принимать собственные решения. Таким образом, наша работа переосмысливает проблему обнаружения текстов, созданных ИИ, с человекоцентрической точки зрения и открывает путь для нового семейства детекторов, ориентированных на нативную объяснимость.

English

Research on AI-generated text detection has presented a number of approaches to discern human from AI prose, some of which achieving high in-distribution performance. However, real-world applicability has stalled because their outputs are misaligned with the needs of users, such as professors, who are presented with a numeric score that has no attached explanation. We tackle this issue with a novel architecture, TELL, that bakes explainability from the ground-up. While our system still offers a numerical score like other detectors for comparability, TELL takes a fundamentally different approach where we aim to show the user the "tells" by which the model believes a text is AI or human-written, to empower the user to decide who wrote a text using their own judgment and understanding of the context of the writing and its alleged author. We train TELL on a custom SFT dataset of domain-specific authorship annotations, and further refine the system using GRPO with curriculum learning to improve performance. We achieve competitive performance with state-of-the-art detectors (AUROC 0.927) while natively providing annotations that explain the basis for the detector's decision. We further evaluate the quality of our explanations using a dataset of human annotations and report a high (mean 72.3%) win-rate on annotation concreteness, falsifiability, coherence, plausibility and grounding, allowing users to critically think and decide for themselves. Our work thus reframes the problem of AI-generated text detection in a human-centric perspective and paves the way for a new family of detectors that focus on native explainability.