Detecção automática de textos Gen-AI: Um quadro comparativo de modelos neurais

Resumo

A rápida proliferação de Modelos de Linguagem de Grande Porte aumentou significativamente a dificuldade de distinguir entre textos escritos por humanos e textos gerados por IA, levantando questões críticas nos domínios académico, editorial e social. Este artigo investiga o problema da deteção de texto gerado por IA através do projeto, implementação e avaliação comparativa de múltiplos detetores baseados em aprendizagem automática. Quatro arquiteturas neuronais são desenvolvidas e analisadas: um Perceptrão Multicamada, uma Rede Neural Convolucional unidimensional, uma CNN baseada no MobileNet e um modelo Transformer. Os modelos propostos são comparados com detetores online amplamente utilizados, incluindo ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase e Writer. As experiências são realizadas no Conjunto de Dados Multilíngue COLING, considerando as configurações em inglês e italiano, bem como num conjunto de dados temático original focado em Arte e Saúde Mental. Os resultados mostram que os detetores supervisionados alcançam um desempenho mais estável e robusto do que as ferramentas comerciais em diferentes idiomas e domínios, destacando os pontos fortes e as limitações principais das atuais estratégias de deteção.

English

The rapid proliferation of Large Language Models has significantly increased the difficulty of distinguishing between human-written and AI generated texts, raising critical issues across academic, editorial, and social domains. This paper investigates the problem of AI generated text detection through the design, implementation, and comparative evaluation of multiple machine learning based detectors. Four neural architectures are developed and analyzed: a Multilayer Perceptron, a one-dimensional Convolutional Neural Network, a MobileNet-based CNN, and a Transformer model. The proposed models are benchmarked against widely used online detectors, including ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase, and Writer. Experiments are conducted on the COLING Multilingual Dataset, considering both English and Italian configurations, as well as on an original thematic dataset focused on Art and Mental Health. Results show that supervised detectors achieve more stable and robust performance than commercial tools across different languages and domains, highlighting key strengths and limitations of current detection strategies.