Montrer, ne pas DIRE : Détection explicable de textes générés par IA

Résumé

Les recherches sur la détection de texte généré par IA ont présenté un certain nombre d'approches pour distinguer la prose humaine de celle générée par IA, dont certaines atteignent des performances élevées en intra-distribution. Cependant, leur applicabilité dans le monde réel stagne car leurs résultats sont en décalage avec les besoins des utilisateurs, tels que les professeurs, qui se voient présenter un score numérique sans explication associée. Nous abordons ce problème avec une nouvelle architecture, TELL, qui intègre l'explicabilité dès la conception. Bien que notre système propose toujours un score numérique pour permettre la comparaison avec d'autres détecteurs, TELL adopte une approche fondamentalement différente : nous cherchons à montrer à l'utilisateur les « indices » par lesquels le modèle estime qu'un texte est écrit par une IA ou un humain, afin de donner à l'utilisateur les moyens de décider qui a écrit un texte en utilisant son propre jugement et sa compréhension du contexte de l'écriture et de son auteur présumé. Nous entraînons TELL sur un jeu de données SFT personnalisé d'annotations d'auteur spécifiques au domaine, et affinons ensuite le système à l'aide de GRPO avec un apprentissage par curriculum pour améliorer les performances. Nous obtenons des performances compétitives avec les détecteurs de pointe (AUROC 0,927) tout en fournissant de manière native des annotations qui expliquent le fondement de la décision du détecteur. Nous évaluons également la qualité de nos explications à l'aide d'un ensemble de données d'annotations humaines et rapportons un taux de victoire élevé (moyenne de 72,3 %) en termes de concrétude, falsifiabilité, cohérence, plausibilité et ancrage des annotations, permettant aux utilisateurs de réfléchir de manière critique et de décider par eux-mêmes. Notre travail reformule ainsi le problème de la détection de texte généré par IA dans une perspective centrée sur l'humain et ouvre la voie à une nouvelle famille de détecteurs axés sur l'explicabilité native.

English

Research on AI-generated text detection has presented a number of approaches to discern human from AI prose, some of which achieving high in-distribution performance. However, real-world applicability has stalled because their outputs are misaligned with the needs of users, such as professors, who are presented with a numeric score that has no attached explanation. We tackle this issue with a novel architecture, TELL, that bakes explainability from the ground-up. While our system still offers a numerical score like other detectors for comparability, TELL takes a fundamentally different approach where we aim to show the user the "tells" by which the model believes a text is AI or human-written, to empower the user to decide who wrote a text using their own judgment and understanding of the context of the writing and its alleged author. We train TELL on a custom SFT dataset of domain-specific authorship annotations, and further refine the system using GRPO with curriculum learning to improve performance. We achieve competitive performance with state-of-the-art detectors (AUROC 0.927) while natively providing annotations that explain the basis for the detector's decision. We further evaluate the quality of our explanations using a dataset of human annotations and report a high (mean 72.3%) win-rate on annotation concreteness, falsifiability, coherence, plausibility and grounding, allowing users to critically think and decide for themselves. Our work thus reframes the problem of AI-generated text detection in a human-centric perspective and paves the way for a new family of detectors that focus on native explainability.