Modelos Base Parecem Humanos Para Detectores de IA

Resumo

À medida que o texto gerado por IA entra no mundo real em escala, instituições passam a usar cada vez mais detectores comerciais de texto gerado por IA, especialmente em fluxos de trabalho educacionais e de integridade acadêmica. Reportamos uma descoberta empírica surpreendente sobre tais sistemas: quando avaliados pelo GPTZero e pelo Pangram, o texto gerado por modelos base é frequentemente julgado como esmagadoramente humano, enquanto o texto gerado por suas contrapartes ajustadas por instruções não o é. Com base nessa observação, propomos a Humanização por Parafraseamento Iterativo (HIP), um pipeline independente de detector que ajusta minimamente um modelo base em um parafraseador e o aplica iterativamente. Em comparação com as linhas de base testadas, a HIP oferece um trade-off mais forte entre preservação semântica e evasão de detectores comerciais. Nas famílias Llama-3 e Qwen-3, abrangendo tamanhos de modelo de 0,6B a 70B, a HIP melhora consistentemente a similaridade humana dos detectores. Nossos achados sugerem que os detectores atuais estão rastreando artefatos do ajuste por instruções e do contexto local mais do que qualquer noção invariante de texto gerado por máquina. Isso, por sua vez, exige projetos de detectores que modelem esses fatores de forma mais explícita.

English

As AI-generated text enters the real-world at scale, institutions increasingly use commercial AI-text detectors, especially in education and academic-integrity workflows. We report a surprising empirical finding about such systems: when evaluated by GPTZero and Pangram, generated text from base models is often judged overwhelmingly human, whereas text generated by their instruction-tuned counterparts is not. Building on this observation, we propose Humanization by Iterative Paraphrasing (HIP), a detector-agnostic pipeline that minimally fine-tunes a base model into a paraphraser and applies it iteratively. Compared with the baselines we test, HIP yields a stronger trade-off between semantic preservation and detector evasion on commercial detectors. Across Llama-3 and Qwen-3 families, spanning model sizes from 0.6B to 70B, HIP consistently improves detector human-likeness. Our findings suggest that current detectors are tracking artifacts of instruction tuning and local context more than any invariant notion of machine-generated text. This, in turn, calls for detector designs that model these factors more explicitly.