Для детекторов ИИ базовые модели выглядят человеческими

Аннотация

По мере того как текст, созданный ИИ, масштабно проникает в реальный мир, учреждения все чаще используют коммерческие детекторы ИИ-текста, особенно в образовательных процессах и процедурах обеспечения академической честности. Мы сообщаем об удивительном эмпирическом наблюдении, касающемся таких систем: при оценке с помощью GPTZero и Pangram текст, сгенерированный базовыми моделями, часто воспринимается как в высшей степени человеческий, тогда как текст, созданный их аналогами, настроенными на выполнение инструкций, — нет. Основываясь на этом наблюдении, мы предлагаем «Очеловечивание путем итеративного перефразирования» (HIP) — независимый от детектора конвейер, который минимально дообучает базовую модель до состояния перефразировщика и применяет его итеративно. По сравнению с протестированными базовыми методами HIP обеспечивает более сильный компромисс между сохранением семантики и обходом коммерческих детекторов. В семействах Llama-3 и Qwen-3, охватывающих размеры моделей от 0,6B до 70B, HIP неизменно повышает человекообразность с точки зрения детекторов. Наши результаты позволяют предположить, что современные детекторы отслеживают артефакты настройки на выполнение инструкций и локального контекста в большей степени, чем какое-либо инвариантное понятие машинно-сгенерированного текста. Это, в свою очередь, требует создания детекторов, которые моделировали бы эти факторы более явно.

English

As AI-generated text enters the real-world at scale, institutions increasingly use commercial AI-text detectors, especially in education and academic-integrity workflows. We report a surprising empirical finding about such systems: when evaluated by GPTZero and Pangram, generated text from base models is often judged overwhelmingly human, whereas text generated by their instruction-tuned counterparts is not. Building on this observation, we propose Humanization by Iterative Paraphrasing (HIP), a detector-agnostic pipeline that minimally fine-tunes a base model into a paraphraser and applies it iteratively. Compared with the baselines we test, HIP yields a stronger trade-off between semantic preservation and detector evasion on commercial detectors. Across Llama-3 and Qwen-3 families, spanning model sizes from 0.6B to 70B, HIP consistently improves detector human-likeness. Our findings suggest that current detectors are tracking artifacts of instruction tuning and local context more than any invariant notion of machine-generated text. This, in turn, calls for detector designs that model these factors more explicitly.