Rilevamento automatico di testi generati da intelligenza artificiale: un quadro comparativo di modelli neurali

Abstract

La rapida proliferazione dei Large Language Model ha aumentato significativamente la difficoltà di distinguere tra testi scritti da esseri umani e testi generati dall'IA, sollevando questioni critiche in ambito accademico, editoriale e sociale. Questo articolo indaga il problema della rilevazione del testo generato dall'IA attraverso la progettazione, l'implementazione e la valutazione comparata di più rilevatori basati sul machine learning. Vengono sviluppate e analizzate quattro architetture neurali: un Perceptron Multistrato, una rete neurale convoluzionale monodimensionale, una CNN basata su MobileNet e un modello Transformer. I modelli proposti vengono confrontati con rilevatori online ampiamente utilizzati, tra cui ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase e Writer. Gli esperimenti sono condotti sul COLING Multilingual Dataset, considerando sia le configurazioni in lingua inglese che italiana, nonché su un dataset tematico originale incentrato su Arte e Salute Mentale. I risultati mostrano che i rilevatori supervisionati raggiungono prestazioni più stabili e robuste rispetto agli strumenti commerciali in diverse lingue e domini, evidenziando i punti di forza e le limitazioni principali delle attuali strategie di rilevamento.

English

The rapid proliferation of Large Language Models has significantly increased the difficulty of distinguishing between human-written and AI generated texts, raising critical issues across academic, editorial, and social domains. This paper investigates the problem of AI generated text detection through the design, implementation, and comparative evaluation of multiple machine learning based detectors. Four neural architectures are developed and analyzed: a Multilayer Perceptron, a one-dimensional Convolutional Neural Network, a MobileNet-based CNN, and a Transformer model. The proposed models are benchmarked against widely used online detectors, including ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase, and Writer. Experiments are conducted on the COLING Multilingual Dataset, considering both English and Italian configurations, as well as on an original thematic dataset focused on Art and Mental Health. Results show that supervised detectors achieve more stable and robust performance than commercial tools across different languages and domains, highlighting key strengths and limitations of current detection strategies.

Rilevamento automatico di testi generati da intelligenza artificiale: un quadro comparativo di modelli neurali

Automatic detection of Gen-AI texts: A comparative framework of neural models

Abstract

Support