StealthRL: Reinforcement Learning Parafraseeraanvallen voor het Omzeilen van Meerdere AI-tekstdetectoren

Samenvatting

AI-tekstdetectors worden geconfronteerd met een kritieke robuustheidsuitdaging: adversariële parafraseeraanvallen die de semantiek behouden terwijl ze detectie omzeilen. Wij introduceren StealthRL, een reinforcement learning-framework dat de robuustheid van detectors stress-test onder realistische adversariële condities. StealthRL traint een parafraseerbeleid tegen een multi-detector-ensemble met behulp van Group Relative Policy Optimization (GRPO) met LoRA-adapters op Qwen3-4B, waarbij een samengestelde beloning wordt geoptimaliseerd die detectorontwijking balanceert met semantisch behoud. Wij evalueren zes aanvalsinstellingen (M0-M5) tegen drie detectorfamilies (RoBERTa, FastDetectGPT en Binoculars) op het veiligheidsrelevante werkpunt van 1% vals-positieven. StealthRL bereikt een detectiegraad van bijna nul (0.001 gemiddelde TPR@1%FPR), verlaagt de gemiddelde AUROC van 0.74 naar 0.27 en behaalt een aanvalssuccespercentage van 99,9%. Cruciaal is dat de aanvallen transfereren naar een buiten-beschouwing-gelaten detectorfamilie die niet tijdens de training werd gezien, wat gedeelde architectuurkwetsbaarheden blootlegt in plaats van detector-specifieke broosheid. Daarnaast voeren wij een op LLM gebaseerde kwaliteitsevaluatie uit via Likert-scoring, analyseren wij detector-scoreverdelingen om te verklaren waarom ontwijking slaagt, en verstrekken wij per-detector AUROC met bootstrap-betrouwbaarheidsintervallen. Onze resultaten leggen significante robuustheidslekken bloot in huidige AI-tekstdetectie en vestigen StealthRL als een principieel adversarieel evaluatieprotocol. Code en evaluatiepipeline zijn publiekelijk beschikbaar op https://github.com/suraj-ranganath/StealthRL.

English

AI-text detectors face a critical robustness challenge: adversarial paraphrasing attacks that preserve semantics while evading detection. We introduce StealthRL, a reinforcement learning framework that stress-tests detector robustness under realistic adversarial conditions. StealthRL trains a paraphrase policy against a multi-detector ensemble using Group Relative Policy Optimization (GRPO) with LoRA adapters on Qwen3-4B, optimizing a composite reward that balances detector evasion with semantic preservation. We evaluate six attack settings (M0-M5) against three detector families (RoBERTa, FastDetectGPT, and Binoculars) at the security-relevant 1% false positive rate operating point. StealthRL achieves near-zero detection (0.001 mean TPR@1%FPR), reduces mean AUROC from 0.74 to 0.27, and attains a 99.9% attack success rate. Critically, attacks transfer to a held-out detector family not seen during training, revealing shared architectural vulnerabilities rather than detector-specific brittleness. We additionally conduct LLM-based quality evaluation via Likert scoring, analyze detector score distributions to explain why evasion succeeds, and provide per-detector AUROC with bootstrap confidence intervals. Our results expose significant robustness gaps in current AI-text detection and establish StealthRL as a principled adversarial evaluation protocol. Code and evaluation pipeline are publicly available at https://github.com/suraj-ranganath/StealthRL.

StealthRL: Reinforcement Learning Parafraseeraanvallen voor het Omzeilen van Meerdere AI-tekstdetectoren

StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors

Samenvatting

Support