Basismodellen lijken menselijk voor AI-detectoren

Samenvatting

Nu AI-gegenereerde tekst op grote schaal de echte wereld binnenkomt, maken instellingen steeds vaker gebruik van commerciële AI-tekstdetectoren, met name in onderwijs- en academische-integriteitsworkflows. Wij rapporteren een verrassende empirische bevinding over dergelijke systemen: wanneer geëvalueerd door GPTZero en Pangram, wordt gegenereerde tekst van basismodellen vaak overweldigend als menselijk beoordeeld, terwijl tekst gegenereerd door hun instructie-afgestemde tegenhangers dat niet is. Voortbouwend op deze observatie stellen wij Humanisering door Iteratieve Parafrasering (HIP) voor, een detector-agnostische pijplijn die een basismodel minimaal fijnafstemt tot een parafraseur en deze iteratief toepast. Vergeleken met de basislijnen die wij testen, levert HIP een sterkere afweging op tussen semantisch behoud en detectorontwijking bij commerciële detectoren. Over de Llama-3- en Qwen-3-families heen, met modelgroottes van 0,6B tot 70B, verbetert HIP consequent de detectormenselijkheidsgraad. Onze bevindingen suggereren dat huidige detectoren artefacten van instructie-afstemming en lokale context volgen, meer dan enige invariante notie van machine-gegenereerde tekst. Dit roept op zijn beurt op tot detectorenontwerpen die deze factoren explicieter modelleren.

English

As AI-generated text enters the real-world at scale, institutions increasingly use commercial AI-text detectors, especially in education and academic-integrity workflows. We report a surprising empirical finding about such systems: when evaluated by GPTZero and Pangram, generated text from base models is often judged overwhelmingly human, whereas text generated by their instruction-tuned counterparts is not. Building on this observation, we propose Humanization by Iterative Paraphrasing (HIP), a detector-agnostic pipeline that minimally fine-tunes a base model into a paraphraser and applies it iteratively. Compared with the baselines we test, HIP yields a stronger trade-off between semantic preservation and detector evasion on commercial detectors. Across Llama-3 and Qwen-3 families, spanning model sizes from 0.6B to 70B, HIP consistently improves detector human-likeness. Our findings suggest that current detectors are tracking artifacts of instruction tuning and local context more than any invariant notion of machine-generated text. This, in turn, calls for detector designs that model these factors more explicitly.