Détection robuste et fine des textes générés par l'IA
Robust and Fine-Grained Detection of AI Generated Texts
April 16, 2025
Auteurs: Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Kanwal Mehreen, Drishti Sharma, Siddhant Gupta, Jebish Purbey, Ashay Srivastava, Subhasya TippaReddy, Arvind Reddy Bobbili, Suraj Telugara Chandrashekhar, Modabbir Adeeb, Srinadh Vura, Hamza Farooq
cs.AI
Résumé
Un système de détection idéal pour le contenu généré par machine devrait fonctionner efficacement avec tout générateur, d'autant plus que des modèles de langage (LLM) plus avancés apparaissent chaque jour. Les systèmes existants peinent souvent à identifier avec précision le contenu généré par l'IA, en particulier pour les textes courts. De plus, tous les textes ne sont pas entièrement rédigés par un humain ou un LLM, c'est pourquoi nous nous sommes concentrés sur les cas partiels, c'est-à-dire les textes co-écrits par des humains et des LLM. Notre article présente un ensemble de modèles conçus pour la tâche de classification de tokens, entraînés sur une vaste collection de textes co-écrits par des humains et des machines, qui ont obtenu de bons résultats sur des textes de domaines inconnus, des générateurs inédits, des textes de locuteurs non natifs et ceux comportant des entrées adverses. Nous introduisons également un nouveau jeu de données de plus de 2,4 millions de textes, majoritairement co-écrits par plusieurs LLM propriétaires populaires dans 23 langues. Nous présentons également les résultats de la performance de nos modèles sur les textes de chaque domaine et générateur. Les résultats supplémentaires incluent une comparaison des performances contre chaque méthode adverse, la longueur des textes d'entrée et les caractéristiques des textes générés par rapport aux textes originaux rédigés par des humains.
English
An ideal detection system for machine generated content is supposed to work
well on any generator as many more advanced LLMs come into existence day by
day. Existing systems often struggle with accurately identifying AI-generated
content over shorter texts. Further, not all texts might be entirely authored
by a human or LLM, hence we focused more over partial cases i.e human-LLM
co-authored texts. Our paper introduces a set of models built for the task of
token classification which are trained on an extensive collection of
human-machine co-authored texts, which performed well over texts of unseen
domains, unseen generators, texts by non-native speakers and those with
adversarial inputs. We also introduce a new dataset of over 2.4M such texts
mostly co-authored by several popular proprietary LLMs over 23 languages. We
also present findings of our models' performance over each texts of each domain
and generator. Additional findings include comparison of performance against
each adversarial method, length of input texts and characteristics of generated
texts compared to the original human authored texts.Summary
AI-Generated Summary