Pessoas que frequentemente utilizam o ChatGPT para tarefas de escrita são detetores precisos e robustos de texto gerado por IA.

Resumo

Neste artigo, estudamos quão bem os humanos conseguem detectar texto gerado por LLMs comerciais (GPT-4o, Claude, o1). Contratamos anotadores para ler 300 artigos de não ficção em inglês, rotulá-los como escritos por humanos ou gerados por IA, e fornecer explicações de tamanho de parágrafo para suas decisões. Nossos experimentos mostram que os anotadores que frequentemente utilizam LLMs para tarefas de escrita se destacam na detecção de texto gerado por IA, mesmo sem nenhum treinamento especializado ou feedback. Na verdade, o voto majoritário entre cinco desses anotadores "especialistas" classifica erroneamente apenas 1 dos 300 artigos, superando significativamente a maioria dos detectores comerciais e de código aberto que avaliamos, mesmo na presença de táticas de evasão como parafraseamento e humanização. A análise qualitativa das explicações em formato livre dos especialistas mostra que, embora eles dependam fortemente de pistas lexicais específicas ('vocabulário de IA'), eles também identificam fenômenos mais complexos dentro do texto (por exemplo, formalidade, originalidade, clareza) que são desafiadores de avaliar para detectores automáticos. Disponibilizamos nosso conjunto de dados anotado e código para incentivar pesquisas futuras tanto na detecção humana quanto automatizada de texto gerado por IA.

English

In this paper, we study how well humans can detect text generated by commercial LLMs (GPT-4o, Claude, o1). We hire annotators to read 300 non-fiction English articles, label them as either human-written or AI-generated, and provide paragraph-length explanations for their decisions. Our experiments show that annotators who frequently use LLMs for writing tasks excel at detecting AI-generated text, even without any specialized training or feedback. In fact, the majority vote among five such "expert" annotators misclassifies only 1 of 300 articles, significantly outperforming most commercial and open-source detectors we evaluated even in the presence of evasion tactics like paraphrasing and humanization. Qualitative analysis of the experts' free-form explanations shows that while they rely heavily on specific lexical clues ('AI vocabulary'), they also pick up on more complex phenomena within the text (e.g., formality, originality, clarity) that are challenging to assess for automatic detectors. We release our annotated dataset and code to spur future research into both human and automated detection of AI-generated text.

Pessoas que frequentemente utilizam o ChatGPT para tarefas de escrita são detetores precisos e robustos de texto gerado por IA.

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

Resumo

Support