StealthRL: Атаки парафразами с обучением с подкреплением для обхода множественных детекторов AI-текста
StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors
February 9, 2026
Авторы: Suraj Ranganath, Atharv Ramesh
cs.AI
Аннотация
Детекторы ИИ-текста сталкиваются с фундаментальной проблемой устойчивости: атаки с помощью адверсарного перефразирования, которые сохраняют семантику, но уклоняются от обнаружения. Мы представляем StealthRL, фреймворк на основе обучения с подкреплением для стресс-тестирования устойчивости детекторов в реалистичных адверсарных условиях. StealthRL обучает политику перефразирования против ансамбля детекторов с использованием Group Relative Policy Optimization (GRPO) и адаптеров LoRA на модели Qwen3-4B, оптимизируя составную функцию вознаграждения, которая балансирует уклонение от детектирования и сохранение семантики. Мы оцениваем шесть сценариев атаки (M0-M5) против трёх семейств детекторов (RoBERTa, FastDetectGPT и Binoculars) в критической точке работы с 1% ложноположительных срабатываний. StealthRL достигает почти нулевого уровня детектирования (средний TPR@1%FPR = 0.001), снижает средний AUROC с 0.74 до 0.27 и демонстрирует 99.9% успешных атак. Ключевой результат: атаки обобщаются на неизвестное во время обучения семейство детекторов, что указывает на общие уязвимости архитектур, а не на специфическую хрупкость отдельных детекторов. Дополнительно мы проводим оценку качества с помощью LLM через Likert-шкалирование, анализируем распределения оценок детекторов для объяснения успеха уклонения и предоставляем AUROC для каждого детектора с доверительными интервалами на основе бутстрэпа. Наши результаты выявляют значительные пробелы в устойчивости современных детекторов ИИ-текста и устанавливают StealthRL в качестве принципиального протокола адверсарной оценки. Код и конвейер оценки доступны по адресу https://github.com/suraj-ranganath/StealthRL.
English
AI-text detectors face a critical robustness challenge: adversarial paraphrasing attacks that preserve semantics while evading detection. We introduce StealthRL, a reinforcement learning framework that stress-tests detector robustness under realistic adversarial conditions. StealthRL trains a paraphrase policy against a multi-detector ensemble using Group Relative Policy Optimization (GRPO) with LoRA adapters on Qwen3-4B, optimizing a composite reward that balances detector evasion with semantic preservation. We evaluate six attack settings (M0-M5) against three detector families (RoBERTa, FastDetectGPT, and Binoculars) at the security-relevant 1% false positive rate operating point. StealthRL achieves near-zero detection (0.001 mean TPR@1%FPR), reduces mean AUROC from 0.74 to 0.27, and attains a 99.9% attack success rate. Critically, attacks transfer to a held-out detector family not seen during training, revealing shared architectural vulnerabilities rather than detector-specific brittleness. We additionally conduct LLM-based quality evaluation via Likert scoring, analyze detector score distributions to explain why evasion succeeds, and provide per-detector AUROC with bootstrap confidence intervals. Our results expose significant robustness gaps in current AI-text detection and establish StealthRL as a principled adversarial evaluation protocol. Code and evaluation pipeline are publicly available at https://github.com/suraj-ranganath/StealthRL.