Détection automatique de textes générés par IA : un cadre comparatif de modèles neuronaux

Résumé

La prolifération rapide des grands modèles de langage a considérablement accru la difficulté de distinguer les textes écrits par l'homme de ceux générés par l'IA, soulevant des enjeux critiques dans les domaines académique, éditorial et social. Cet article étudie le problème de la détection des textes générés par l'IA grâce à la conception, la mise en œuvre et l'évaluation comparative de plusieurs détecteurs fondés sur l'apprentissage automatique. Quatre architectures neuronales sont développées et analysées : un Perceptron Multicouche, un Réseau de Neurones Convolutif unidimensionnel, un CNN basé sur MobileNet et un modèle Transformer. Les modèles proposés sont comparés à des détecteurs en ligne largement utilisés, notamment ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase et Writer. Les expériences sont menées sur le jeu de données multilingue COLING, en considérant les configurations anglaise et italienne, ainsi que sur un jeu de données thématique original axé sur l'Art et la Santé Mentale. Les résultats montrent que les détecteurs supervisés obtiennent des performances plus stables et robustes que les outils commerciaux, et ce, dans différentes langues et domaines, mettant en lumière les forces et les limites principales des stratégies de détection actuelles.

English

The rapid proliferation of Large Language Models has significantly increased the difficulty of distinguishing between human-written and AI generated texts, raising critical issues across academic, editorial, and social domains. This paper investigates the problem of AI generated text detection through the design, implementation, and comparative evaluation of multiple machine learning based detectors. Four neural architectures are developed and analyzed: a Multilayer Perceptron, a one-dimensional Convolutional Neural Network, a MobileNet-based CNN, and a Transformer model. The proposed models are benchmarked against widely used online detectors, including ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase, and Writer. Experiments are conducted on the COLING Multilingual Dataset, considering both English and Italian configurations, as well as on an original thematic dataset focused on Art and Mental Health. Results show that supervised detectors achieve more stable and robust performance than commercial tools across different languages and domains, highlighting key strengths and limitations of current detection strategies.

Détection automatique de textes générés par IA : un cadre comparatif de modèles neuronaux

Automatic detection of Gen-AI texts: A comparative framework of neural models

Résumé

Support