Os Detectores de IA São Suficientemente Bons? Uma Pesquisa sobre a Qualidade de Conjuntos de Dados com Textos Gerados por Máquina.

Resumo

O rápido desenvolvimento de Modelos de Linguagem Autoregressivos (LLMs) tem melhorado significativamente a qualidade dos textos gerados, tornando necessária a existência de detectores de texto gerado por máquina confiáveis. Um grande número de detectores e coleções com fragmentos de IA surgiram, e diversos métodos de detecção até mostraram qualidade de reconhecimento de até 99,9% de acordo com as métricas-alvo nessas coleções. No entanto, a qualidade desses detectores tende a cair drasticamente em ambientes reais, levantando a questão: Os detectores são realmente altamente confiáveis ou seus altos índices de referência vêm da baixa qualidade dos conjuntos de dados de avaliação? Neste artigo, enfatizamos a necessidade de métodos robustos e qualitativos para avaliar dados gerados a fim de garantir segurança contra viés e baixa capacidade de generalização de futuros modelos. Apresentamos uma revisão sistemática de conjuntos de dados de competições dedicadas à detecção de conteúdo gerado por IA e propomos métodos para avaliar a qualidade de conjuntos de dados contendo fragmentos gerados por IA. Além disso, discutimos a possibilidade de usar dados gerados de alta qualidade para alcançar dois objetivos: melhorar o treinamento de modelos de detecção e aprimorar os próprios conjuntos de dados de treinamento. Nossa contribuição visa facilitar uma melhor compreensão da dinâmica entre texto humano e de máquina, o que, em última instância, apoiará a integridade da informação em um mundo cada vez mais automatizado.

English

The rapid development of autoregressive Large Language Models (LLMs) has significantly improved the quality of generated texts, necessitating reliable machine-generated text detectors. A huge number of detectors and collections with AI fragments have emerged, and several detection methods even showed recognition quality up to 99.9% according to the target metrics in such collections. However, the quality of such detectors tends to drop dramatically in the wild, posing a question: Are detectors actually highly trustworthy or do their high benchmark scores come from the poor quality of evaluation datasets? In this paper, we emphasise the need for robust and qualitative methods for evaluating generated data to be secure against bias and low generalising ability of future model. We present a systematic review of datasets from competitions dedicated to AI-generated content detection and propose methods for evaluating the quality of datasets containing AI-generated fragments. In addition, we discuss the possibility of using high-quality generated data to achieve two goals: improving the training of detection models and improving the training datasets themselves. Our contribution aims to facilitate a better understanding of the dynamics between human and machine text, which will ultimately support the integrity of information in an increasingly automated world.

Os Detectores de IA São Suficientemente Bons? Uma Pesquisa sobre a Qualidade de Conjuntos de Dados com Textos Gerados por Máquina.

Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

Resumo

Support