Detección automática de textos generados por IA: Un marco comparativo de modelos neuronales

Resumen

La rápida proliferación de los Modelos de Lenguaje a Gran Escala ha incrementado significativamente la dificultad de distinguir entre textos escritos por humanos y textos generados por IA, planteando problemas críticos en los ámbitos académico, editorial y social. Este artículo investiga el problema de la detección de texto generado por IA mediante el diseño, implementación y evaluación comparativa de múltiples detectores basados en aprendizaje automático. Se desarrollan y analizan cuatro arquitecturas neuronales: un Perceptrón Multicapa, una Red Neuronal Convolucional unidimensional, una CNN basada en MobileNet y un modelo Transformer. Los modelos propuestos se comparan con detectores en línea ampliamente utilizados, como ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase y Writer. Los experimentos se realizan en el Conjunto de Datos Multilingüe de COLING, considerando tanto las configuraciones en inglés como en italiano, así como en un conjunto de datos temático original centrado en Arte y Salud Mental. Los resultados muestran que los detectores supervisados logran un rendimiento más estable y robusto que las herramientas comerciales en diferentes idiomas y dominios, resaltando las fortalezas y limitaciones clave de las estrategias de detección actuales.

English

The rapid proliferation of Large Language Models has significantly increased the difficulty of distinguishing between human-written and AI generated texts, raising critical issues across academic, editorial, and social domains. This paper investigates the problem of AI generated text detection through the design, implementation, and comparative evaluation of multiple machine learning based detectors. Four neural architectures are developed and analyzed: a Multilayer Perceptron, a one-dimensional Convolutional Neural Network, a MobileNet-based CNN, and a Transformer model. The proposed models are benchmarked against widely used online detectors, including ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase, and Writer. Experiments are conducted on the COLING Multilingual Dataset, considering both English and Italian configurations, as well as on an original thematic dataset focused on Art and Mental Health. Results show that supervised detectors achieve more stable and robust performance than commercial tools across different languages and domains, highlighting key strengths and limitations of current detection strategies.

Detección automática de textos generados por IA: Un marco comparativo de modelos neuronales

Automatic detection of Gen-AI texts: A comparative framework of neural models

Resumen

Support