Les personnes qui utilisent fréquemment ChatGPT pour des tâches d'écriture sont des détecteurs précis et robustes de texte généré par IA.

papers.abstract

Dans cet article, nous étudions la capacité des humains à détecter le texte généré par des LLM commerciaux (GPT-4o, Claude, o1). Nous recrutons des annotateurs pour lire 300 articles en anglais de non-fiction, les étiqueter comme étant écrits par des humains ou générés par une IA, et fournir des explications d'une longueur de paragraphe pour leurs décisions. Nos expériences montrent que les annotateurs qui utilisent fréquemment des LLM pour des tâches d'écriture excellent dans la détection de textes générés par une IA, même sans formation spécialisée ou rétroaction. En fait, le vote majoritaire parmi cinq de ces annotateurs "experts" classe incorrectement seulement 1 des 300 articles, surpassant de manière significative la plupart des détecteurs commerciaux et open-source que nous avons évalués, même en présence de tactiques d'évasion telles que la paraphrase et l'humanisation. L'analyse qualitative des explications libres des experts montre qu'ils s'appuient fortement sur des indices lexicaux spécifiques ('vocabulaire IA'), mais qu'ils identifient également des phénomènes plus complexes dans le texte (par exemple, la formalité, l'originalité, la clarté) qui sont difficiles à évaluer pour les détecteurs automatiques. Nous mettons à disposition notre ensemble de données annoté et notre code pour stimuler la recherche future sur la détection humaine et automatisée de textes générés par une IA.

English

In this paper, we study how well humans can detect text generated by commercial LLMs (GPT-4o, Claude, o1). We hire annotators to read 300 non-fiction English articles, label them as either human-written or AI-generated, and provide paragraph-length explanations for their decisions. Our experiments show that annotators who frequently use LLMs for writing tasks excel at detecting AI-generated text, even without any specialized training or feedback. In fact, the majority vote among five such "expert" annotators misclassifies only 1 of 300 articles, significantly outperforming most commercial and open-source detectors we evaluated even in the presence of evasion tactics like paraphrasing and humanization. Qualitative analysis of the experts' free-form explanations shows that while they rely heavily on specific lexical clues ('AI vocabulary'), they also pick up on more complex phenomena within the text (e.g., formality, originality, clarity) that are challenging to assess for automatic detectors. We release our annotated dataset and code to spur future research into both human and automated detection of AI-generated text.

Les personnes qui utilisent fréquemment ChatGPT pour des tâches d'écriture sont des détecteurs précis et robustes de texte généré par IA.

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

papers.abstract

Support