StealthRL : Attaques de paraphrase par apprentissage par renforcement pour l'évasion multi-détecteurs des détecteurs de texte IA
StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors
February 9, 2026
papers.authors: Suraj Ranganath, Atharv Ramesh
cs.AI
papers.abstract
Les détecteurs de texte IA font face à un défi crucial de robustesse : les attaques par paraphrase adversariales qui préservent la sémantique tout en échappant à la détection. Nous présentons StealthRL, un cadre d'apprentissage par renforcement qui teste la robustesse des détecteurs dans des conditions adversariales réalistes. StealthRL entraîne une politique de paraphrase contre un ensemble multi-détecteurs en utilisant l'Optimisation de Politique Relative par Groupe (GRPO) avec des adaptateurs LoRA sur Qwen3-4B, optimisant une récompense composite qui équilibre l'évasion des détecteurs avec la préservation sémantique. Nous évaluons six scénarios d'attaque (M0-M5) contre trois familles de détecteurs (RoBERTa, FastDetectGPT et Binoculars) au point de fonctionnement critique de 1% de taux de faux positifs. StealthRL atteint une détection quasi nulle (TPR@1%FPR moyen de 0,001), réduit l'AUROC moyen de 0,74 à 0,27 et obtient un taux de réussite d'attaque de 99,9%. Fait crucial, les attaques se transfèrent à une famille de détecteurs exclue de l'entraînement, révélant des vulnérabilités architecturales partagées plutôt qu'une fragilité spécifique aux détecteurs. Nous menons également une évaluation de qualité basée sur les LLM via un score de Likert, analysons les distributions des scores des détecteurs pour expliquer pourquoi l'évasion réussit, et fournissons l'AUROC par détecteur avec des intervalles de confiance bootstrap. Nos résultats exposent des lacunes significatives de robustesse dans la détection actuelle de texte IA et établissent StealthRL comme un protocole d'évaluation adversarial principié. Le code et la pipeline d'évaluation sont disponibles publiquement à l'adresse https://github.com/suraj-ranganath/StealthRL.
English
AI-text detectors face a critical robustness challenge: adversarial paraphrasing attacks that preserve semantics while evading detection. We introduce StealthRL, a reinforcement learning framework that stress-tests detector robustness under realistic adversarial conditions. StealthRL trains a paraphrase policy against a multi-detector ensemble using Group Relative Policy Optimization (GRPO) with LoRA adapters on Qwen3-4B, optimizing a composite reward that balances detector evasion with semantic preservation. We evaluate six attack settings (M0-M5) against three detector families (RoBERTa, FastDetectGPT, and Binoculars) at the security-relevant 1% false positive rate operating point. StealthRL achieves near-zero detection (0.001 mean TPR@1%FPR), reduces mean AUROC from 0.74 to 0.27, and attains a 99.9% attack success rate. Critically, attacks transfer to a held-out detector family not seen during training, revealing shared architectural vulnerabilities rather than detector-specific brittleness. We additionally conduct LLM-based quality evaluation via Likert scoring, analyze detector score distributions to explain why evasion succeeds, and provide per-detector AUROC with bootstrap confidence intervals. Our results expose significant robustness gaps in current AI-text detection and establish StealthRL as a principled adversarial evaluation protocol. Code and evaluation pipeline are publicly available at https://github.com/suraj-ranganath/StealthRL.