Os Detectores de IA São Suficientemente Bons? Uma Pesquisa sobre a Qualidade de Conjuntos de Dados com Textos Gerados por Máquina.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts
October 18, 2024
Autores: German Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich
cs.AI
Resumo
O rápido desenvolvimento de Modelos de Linguagem Autoregressivos (LLMs) tem melhorado significativamente a qualidade dos textos gerados, tornando necessária a existência de detectores de texto gerado por máquina confiáveis. Um grande número de detectores e coleções com fragmentos de IA surgiram, e diversos métodos de detecção até mostraram qualidade de reconhecimento de até 99,9% de acordo com as métricas-alvo nessas coleções. No entanto, a qualidade desses detectores tende a cair drasticamente em ambientes reais, levantando a questão: Os detectores são realmente altamente confiáveis ou seus altos índices de referência vêm da baixa qualidade dos conjuntos de dados de avaliação? Neste artigo, enfatizamos a necessidade de métodos robustos e qualitativos para avaliar dados gerados a fim de garantir segurança contra viés e baixa capacidade de generalização de futuros modelos. Apresentamos uma revisão sistemática de conjuntos de dados de competições dedicadas à detecção de conteúdo gerado por IA e propomos métodos para avaliar a qualidade de conjuntos de dados contendo fragmentos gerados por IA. Além disso, discutimos a possibilidade de usar dados gerados de alta qualidade para alcançar dois objetivos: melhorar o treinamento de modelos de detecção e aprimorar os próprios conjuntos de dados de treinamento. Nossa contribuição visa facilitar uma melhor compreensão da dinâmica entre texto humano e de máquina, o que, em última instância, apoiará a integridade da informação em um mundo cada vez mais automatizado.
English
The rapid development of autoregressive Large Language Models (LLMs) has
significantly improved the quality of generated texts, necessitating reliable
machine-generated text detectors. A huge number of detectors and collections
with AI fragments have emerged, and several detection methods even showed
recognition quality up to 99.9% according to the target metrics in such
collections. However, the quality of such detectors tends to drop dramatically
in the wild, posing a question: Are detectors actually highly trustworthy or do
their high benchmark scores come from the poor quality of evaluation datasets?
In this paper, we emphasise the need for robust and qualitative methods for
evaluating generated data to be secure against bias and low generalising
ability of future model. We present a systematic review of datasets from
competitions dedicated to AI-generated content detection and propose methods
for evaluating the quality of datasets containing AI-generated fragments. In
addition, we discuss the possibility of using high-quality generated data to
achieve two goals: improving the training of detection models and improving the
training datasets themselves. Our contribution aims to facilitate a better
understanding of the dynamics between human and machine text, which will
ultimately support the integrity of information in an increasingly automated
world.Summary
AI-Generated Summary