Automatische Erkennung von Gen-AI-Texten: Ein vergleichendes Framework neuronaler Modelle

Zusammenfassung

Die rasche Verbreitung großsprachlicher Modelle hat die Unterscheidung zwischen menschengeschriebenen und KI-generierten Texten erheblich erschwert, was kritische Fragen in akademischen, redaktionellen und sozialen Bereichen aufwirft. Diese Arbeit untersucht das Problem der Erkennung KI-generierter Texte durch den Entwurf, die Implementierung und die vergleichende Bewertung mehrerer auf maschinellem Lernen basierender Detektoren. Vier neuronale Architekturen werden entwickelt und analysiert: ein mehrschichtiges Perzeptron, ein eindimensionales Convolutional Neural Network, ein auf MobileNet basierendes CNN und ein Transformer-Modell. Die vorgeschlagenen Modelle werden mit weit verbreiteten Online-Detektoren verglichen, darunter ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase und Writer. Experimente werden auf dem COLING Multilingual Dataset durchgeführt, wobei sowohl englische als auch italienische Konfigurationen berücksichtigt werden, sowie auf einem originalen thematischen Datensatz mit Fokus auf Kunst und psychische Gesundheit. Die Ergebnisse zeigen, dass überwachte Detektoren über verschiedene Sprachen und Domänen hinweg stabilere und robustere Leistungen erzielen als kommerzielle Tools, was die wesentlichen Stärken und Grenzen aktueller Erkennungsstrategien aufzeigt.

English

The rapid proliferation of Large Language Models has significantly increased the difficulty of distinguishing between human-written and AI generated texts, raising critical issues across academic, editorial, and social domains. This paper investigates the problem of AI generated text detection through the design, implementation, and comparative evaluation of multiple machine learning based detectors. Four neural architectures are developed and analyzed: a Multilayer Perceptron, a one-dimensional Convolutional Neural Network, a MobileNet-based CNN, and a Transformer model. The proposed models are benchmarked against widely used online detectors, including ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase, and Writer. Experiments are conducted on the COLING Multilingual Dataset, considering both English and Italian configurations, as well as on an original thematic dataset focused on Art and Mental Health. Results show that supervised detectors achieve more stable and robust performance than commercial tools across different languages and domains, highlighting key strengths and limitations of current detection strategies.

Automatische Erkennung von Gen-AI-Texten: Ein vergleichendes Framework neuronaler Modelle

Automatic detection of Gen-AI texts: A comparative framework of neural models

Zusammenfassung

Support