Basis-Modelle wirken auf KI-Detektoren menschlich.

Zusammenfassung

Mit der zunehmenden Verbreitung KI-generierter Texte im großen Maßstab in der realen Welt setzen Institutionen vermehrt kommerzielle KI-Textdetektoren ein, insbesondere in Bildungs- und akademischen Integritätsprozessen. Wir berichten über einen überraschenden empirischen Befund zu solchen Systemen: Bei der Evaluierung durch GPTZero und Pangram werden generierte Texte von Basismodellen oft als überwiegend menschlich bewertet, während Texte ihrer anweisungsoptimierten Gegenstücke dies nicht sind. Aufbauend auf dieser Beobachtung schlagen wir Humanization by Iterative Paraphrasing (HIP) vor, eine detektorunabhängige Pipeline, die ein Basismodell minimal auf einen Paraphraser nachjustiert und diesen iterativ anwendet. Im Vergleich zu den getesteten Basislinien bietet HIP einen besseren Kompromiss zwischen Semantikerhaltung und Detektorumgehung bei kommerziellen Detektoren. Über die Llama-3- und Qwen-3-Familien hinweg, die Modellgrößen von 0,6B bis 70B umfassen, verbessert HIP konsistent die von Detektoren eingeschätzte Menschlichkeit. Unsere Ergebnisse deuten darauf hin, dass aktuelle Detektoren eher Artefakte der Instruktionsoptimierung und des lokalen Kontexts verfolgen als eine invariante Vorstellung maschinengenerierten Textes. Dies wiederum erfordert Detektordesigns, die diese Faktoren expliziter modellieren.

English

As AI-generated text enters the real-world at scale, institutions increasingly use commercial AI-text detectors, especially in education and academic-integrity workflows. We report a surprising empirical finding about such systems: when evaluated by GPTZero and Pangram, generated text from base models is often judged overwhelmingly human, whereas text generated by their instruction-tuned counterparts is not. Building on this observation, we propose Humanization by Iterative Paraphrasing (HIP), a detector-agnostic pipeline that minimally fine-tunes a base model into a paraphraser and applies it iteratively. Compared with the baselines we test, HIP yields a stronger trade-off between semantic preservation and detector evasion on commercial detectors. Across Llama-3 and Qwen-3 families, spanning model sizes from 0.6B to 70B, HIP consistently improves detector human-likeness. Our findings suggest that current detectors are tracking artifacts of instruction tuning and local context more than any invariant notion of machine-generated text. This, in turn, calls for detector designs that model these factors more explicitly.