Los modelos base parecen humanos para los detectores de IA.

Resumen

A medida que el texto generado por IA ingresa al mundo real a gran escala, las instituciones recurren cada vez más a detectores comerciales de texto generado por IA, especialmente en flujos de trabajo educativos y de integridad académica. Reportamos un hallazgo empírico sorprendente sobre dichos sistemas: cuando son evaluados por GPTZero y Pangram, el texto generado por modelos base suele ser juzgado como abrumadoramente humano, mientras que el texto generado por sus equivalentes ajustados por instrucciones no lo es. A partir de esta observación, proponemos Humanización mediante Paráfrasis Iterativa (HIP, por sus siglas en inglés), una tubería independiente del detector que ajusta mínimamente un modelo base como parafraseador y lo aplica de forma iterativa. En comparación con las líneas base que probamos, HIP logra un mejor equilibrio entre preservación semántica y evasión del detector en detectores comerciales. En las familias Llama-3 y Qwen-3, abarcando tamaños de modelo desde 0.6B hasta 70B, HIP mejora consistentemente la humanidad percibida por el detector. Nuestros hallazgos sugieren que los detectores actuales rastrean artefactos del ajuste por instrucciones y del contexto local más que cualquier noción invariante de texto generado por máquina. Esto, a su vez, exige diseños de detectores que modelen estos factores de manera más explícita.

English

As AI-generated text enters the real-world at scale, institutions increasingly use commercial AI-text detectors, especially in education and academic-integrity workflows. We report a surprising empirical finding about such systems: when evaluated by GPTZero and Pangram, generated text from base models is often judged overwhelmingly human, whereas text generated by their instruction-tuned counterparts is not. Building on this observation, we propose Humanization by Iterative Paraphrasing (HIP), a detector-agnostic pipeline that minimally fine-tunes a base model into a paraphraser and applies it iteratively. Compared with the baselines we test, HIP yields a stronger trade-off between semantic preservation and detector evasion on commercial detectors. Across Llama-3 and Qwen-3 families, spanning model sizes from 0.6B to 70B, HIP consistently improves detector human-likeness. Our findings suggest that current detectors are tracking artifacts of instruction tuning and local context more than any invariant notion of machine-generated text. This, in turn, calls for detector designs that model these factors more explicitly.