StealthRL: Paraphrasierungsangriffe mittels Reinforcement Learning zur Umgehung von KI-Textdetektoren durch Multi-Detektor-Evasion
StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors
February 9, 2026
papers.authors: Suraj Ranganath, Atharv Ramesh
cs.AI
papers.abstract
KI-Textdetektoren sehen sich mit einer kritischen Robustheitsherausforderung konfrontiert: adversarische Paraphrasierungsangriffe, die die Semantik bewahren, während sie die Erkennung umgehen. Wir stellen StealthRL vor, ein Reinforcement-Learning-Framework, das die Robustheit von Detektoren unter realistischen adversarischen Bedingungen Stresstests unterzieht. StealthRL trainiert eine Paraphrasierungs-Strategie gegen ein Multi-Detektor-Ensemble unter Verwendung von Group Relative Policy Optimization (GRPO) mit LoRA-Adaptern auf Qwen3-4B und optimiert eine zusammengesetzte Belohnungsfunktion, die die Umgehung der Detektoren mit dem Erhalt der Semantik in Einklang bringt. Wir evaluieren sechs Angriffsszenarien (M0-M5) gegen drei Detektor-Familien (RoBERTa, FastDetectGPT und Binoculars) am sicherheitsrelevanten Betriebspunkt mit 1 % falsch-positiver Rate. StealthRL erreicht eine nahezu Null-Erkennung (0,001 mittlere TPR@1%FPR), reduziert die mittlere AUROC von 0,74 auf 0,27 und erzielt eine Angriffserfolgsrate von 99,9 %. Entscheidend ist, dass die Angriffe auf eine während des Trainings nicht gesehene, zurückgehaltene Detektor-Familie übertragbar sind, was gemeinsame architektonische Schwachstellen anstelle detectorspezifischer Brüchigkeit offenlegt. Zusätzlich führen wir eine LLM-basierte Qualitätsbewertung mittels Likert-Scoring durch, analysieren die Detektor-Score-Verteilungen, um zu erklären, warum die Umgehung gelingt, und liefern die AUROC pro Detektor mit Bootstrap-Konfidenzintervallen. Unsere Ergebnisse decken erhebliche Robustheitslücken in der aktuellen KI-Textdetektion auf und etablieren StealthRL als ein prinzipielles adversarisches Evaluierungsprotokoll. Code und Evaluierungs-Pipeline sind öffentlich verfügbar unter https://github.com/suraj-ranganath/StealthRL.
English
AI-text detectors face a critical robustness challenge: adversarial paraphrasing attacks that preserve semantics while evading detection. We introduce StealthRL, a reinforcement learning framework that stress-tests detector robustness under realistic adversarial conditions. StealthRL trains a paraphrase policy against a multi-detector ensemble using Group Relative Policy Optimization (GRPO) with LoRA adapters on Qwen3-4B, optimizing a composite reward that balances detector evasion with semantic preservation. We evaluate six attack settings (M0-M5) against three detector families (RoBERTa, FastDetectGPT, and Binoculars) at the security-relevant 1% false positive rate operating point. StealthRL achieves near-zero detection (0.001 mean TPR@1%FPR), reduces mean AUROC from 0.74 to 0.27, and attains a 99.9% attack success rate. Critically, attacks transfer to a held-out detector family not seen during training, revealing shared architectural vulnerabilities rather than detector-specific brittleness. We additionally conduct LLM-based quality evaluation via Likert scoring, analyze detector score distributions to explain why evasion succeeds, and provide per-detector AUROC with bootstrap confidence intervals. Our results expose significant robustness gaps in current AI-text detection and establish StealthRL as a principled adversarial evaluation protocol. Code and evaluation pipeline are publicly available at https://github.com/suraj-ranganath/StealthRL.