ChatPaper.aiChatPaper

StealthRL: AIテキスト検出器のマルチ検出器回避のための強化学習を用いたパラフレーズ攻撃

StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors

February 9, 2026
著者: Suraj Ranganath, Atharv Ramesh
cs.AI

要旨

AIテキスト検出器は、意味を保持しながら検出を回避する敵対的言い換え攻撃により、頑健性における重大な課題に直面している。本研究では、現実的な敵対的条件下での検出器の頑健性をストレステストする強化学習フレームワーク「StealthRL」を提案する。StealthRLは、Qwen3-4BにLoRAアダプターを組み合わせたGroup Relative Policy Optimization(GRPO)を用いて、複数検出器アンサンブルに対する言い換えポリシーを学習し、検出回避と意味保存のバランスを取る複合報酬を最適化する。セキュリティ上重要な1%偽陽性率の動作点において、3つの検出器ファミリー(RoBERTa、FastDetectGPT、Binoculars)に対して6つの攻撃設定(M0-M5)を評価した。StealthRLは、検出率をほぼゼロ(平均TPR@1%FPR=0.001)に抑え、平均AUROCを0.74から0.27に低下させ、99.9%の攻撃成功率を達成した。重要な点は、学習時に未経験の検出器ファミリーに対しても攻撃が転移し、検出器固有の脆弱性ではなく、アーキテクチャに共通する脆弱性が明らかになったことである。さらに、Likert尺度を用いたLLMベースの品質評価を実施し、検出器スコア分布を分析して回避成功の理由を説明し、ブートストラップ信頼区間付きの検出器別AUROCを提供する。我々の結果は、現在のAIテキスト検出における重大な頑健性のギャップを暴露し、StealthRLを原則に基づいた敵対的評価プロトコルとして確立する。コードと評価パイプラインはhttps://github.com/suraj-ranganath/StealthRL で公開されている。
English
AI-text detectors face a critical robustness challenge: adversarial paraphrasing attacks that preserve semantics while evading detection. We introduce StealthRL, a reinforcement learning framework that stress-tests detector robustness under realistic adversarial conditions. StealthRL trains a paraphrase policy against a multi-detector ensemble using Group Relative Policy Optimization (GRPO) with LoRA adapters on Qwen3-4B, optimizing a composite reward that balances detector evasion with semantic preservation. We evaluate six attack settings (M0-M5) against three detector families (RoBERTa, FastDetectGPT, and Binoculars) at the security-relevant 1% false positive rate operating point. StealthRL achieves near-zero detection (0.001 mean TPR@1%FPR), reduces mean AUROC from 0.74 to 0.27, and attains a 99.9% attack success rate. Critically, attacks transfer to a held-out detector family not seen during training, revealing shared architectural vulnerabilities rather than detector-specific brittleness. We additionally conduct LLM-based quality evaluation via Likert scoring, analyze detector score distributions to explain why evasion succeeds, and provide per-detector AUROC with bootstrap confidence intervals. Our results expose significant robustness gaps in current AI-text detection and establish StealthRL as a principled adversarial evaluation protocol. Code and evaluation pipeline are publicly available at https://github.com/suraj-ranganath/StealthRL.
PDF01February 13, 2026