Automatische detectie van Gen-AI-teksten: Een vergelijkend kader van neurale modellen

Samenvatting

De snelle opkomst van grootschalige taalmodel(len) heeft de moeilijkheid om door mensen geschreven teksten van AI-gegenereerde teksten te onderscheiden aanzienlijk vergroot, wat kritieke vraagstukken op academisch, redactioneel en sociaal gebied met zich meebrengt. Dit artikel onderzoekt het probleem van het detecteren van AI-gegenereerde tekst door het ontwerp, de implementatie en de vergelijkende evaluatie van meerdere op machine learning gebaseerde detectoren. Vier neurale architecturen worden ontwikkeld en geanalyseerd: een Multilayer Perceptron, een eendimensionaal Convolutioneel Neuraal Netwerk, een op MobileNet gebaseerd CNN en een Transformer-model. De voorgestelde modellen worden getoetst aan veelgebruikte online detectoren, waaronder ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase en Writer. Experimenten worden uitgevoerd op de COLING Multilingual Dataset, waarbij zowel Engelse als Italiaanse configuraties worden overwogen, evenals op een originele thematische dataset gericht op Kunst en Geestelijke Gezondheid. Resultaten tonen aan dat supervised detectoren stabielere en robuustere prestaties leveren dan commerciële tools in verschillende talen en domeinen, wat de belangrijkste sterke punten en beperkingen van huidige detectiestrategieën benadrukt.

English

The rapid proliferation of Large Language Models has significantly increased the difficulty of distinguishing between human-written and AI generated texts, raising critical issues across academic, editorial, and social domains. This paper investigates the problem of AI generated text detection through the design, implementation, and comparative evaluation of multiple machine learning based detectors. Four neural architectures are developed and analyzed: a Multilayer Perceptron, a one-dimensional Convolutional Neural Network, a MobileNet-based CNN, and a Transformer model. The proposed models are benchmarked against widely used online detectors, including ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase, and Writer. Experiments are conducted on the COLING Multilingual Dataset, considering both English and Italian configurations, as well as on an original thematic dataset focused on Art and Mental Health. Results show that supervised detectors achieve more stable and robust performance than commercial tools across different languages and domains, highlighting key strengths and limitations of current detection strategies.

Automatische detectie van Gen-AI-teksten: Een vergelijkend kader van neurale modellen

Automatic detection of Gen-AI texts: A comparative framework of neural models

Samenvatting

Support