Les modèles de base semblent humains aux détecteurs d'IA.

Résumé

Alors que les textes générés par l’IA entrent dans le monde réel à grande échelle, les institutions utilisent de plus en plus des détecteurs commerciaux de texte IA, en particulier dans les contextes éducatifs et les flux de travail liés à l’intégrité académique. Nous rapportons un résultat empirique surprenant concernant ces systèmes : lorsqu’ils sont évalués par GPTZero et Pangram, les textes générés par les modèles de base sont souvent jugés comme très largement humains, tandis que ceux générés par leurs homologues ajustés par instructions ne le sont pas. À partir de cette observation, nous proposons l’Humanisation par Paraphrase Itérative (HIP), un pipeline indépendant du détecteur qui ajuste minimalement un modèle de base en paraphraseur et l’applique de façon itérative. Comparé aux approches de référence testées, HIP offre un meilleur compromis entre préservation du sens et contournement des détecteurs commerciaux. Pour les familles Llama-3 et Qwen-3, couvrant des tailles de modèle de 0,6B à 70B, HIP améliore systématiquement la ressemblance humaine selon les détecteurs. Nos résultats suggèrent que les détecteurs actuels traquent davantage les artefacts de l’ajustement par instructions et du contexte local qu’une quelconque notion invariante de texte généré par machine. Ce constat appelle en retour des conceptions de détecteurs qui modélisent ces facteurs de manière plus explicite.

English

As AI-generated text enters the real-world at scale, institutions increasingly use commercial AI-text detectors, especially in education and academic-integrity workflows. We report a surprising empirical finding about such systems: when evaluated by GPTZero and Pangram, generated text from base models is often judged overwhelmingly human, whereas text generated by their instruction-tuned counterparts is not. Building on this observation, we propose Humanization by Iterative Paraphrasing (HIP), a detector-agnostic pipeline that minimally fine-tunes a base model into a paraphraser and applies it iteratively. Compared with the baselines we test, HIP yields a stronger trade-off between semantic preservation and detector evasion on commercial detectors. Across Llama-3 and Qwen-3 families, spanning model sizes from 0.6B to 70B, HIP consistently improves detector human-likeness. Our findings suggest that current detectors are tracking artifacts of instruction tuning and local context more than any invariant notion of machine-generated text. This, in turn, calls for detector designs that model these factors more explicitly.