ChatPaper.aiChatPaper

StealthRL: AI 텍스트 탐지기 다중 탐지 회복을 위한 강화 학습 기반 패러프레이즈 공격

StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors

February 9, 2026
저자: Suraj Ranganath, Atharv Ramesh
cs.AI

초록

AI 텍스트 탐지기들은 의미를 보존하면서 탐지를 회피하는 적대적 패러프레이징 공격으로 인해 심각한 강건성 문제에 직면해 있습니다. 본 연구에서는 현실적인 적대적 조건에서 탐지기 강건성을 스트레스 테스트하는 강화학습 프레임워크인 StealthRL을 소개합니다. StealthRL은 Qwen3-4B 모델에 LoRA 어댑터를 적용한 Group Relative Policy Optimization(GRPO)을 사용하여 다중 탐지기 앙상블에 대항하는 패러프레이징 정책을 학습하며, 탐지 회피와 의미 보존 사이의 균형을 맞추는 복합 보상 함수를 최적화합니다. 보안적으로 중요한 1% 오탐지율 운영 지점에서 세 가지 탐지기 패밀리(RoBERTa, FastDetectGPT, Binoculars)에 대해 6가지 공격 설정(M0-M5)을 평가했습니다. StealthRL은 거의 제로에 가까운 탐지율(평균 TPR@1%FPR 0.001)을 달성하고, 평균 AUROC를 0.74에서 0.27로 감소시키며, 99.9%의 공격 성공률을 보였습니다. 중요한 것은, 훈련 과정에서 노출되지 않은 별도의 탐지기 패밀리에 대해서도 공격이 효과적으로 전이되었으며, 이는 탐지기별 취약성이 아닌 공통적인 구조적 취약점이 존재함을 보여줍니다. 추가로 LLM 기반 리커트 점수 평가를 수행하고, 탐지 회피가 성공하는 원인을 설명하기 위해 탐지기 점수 분포를 분석하며, 부트스트랩 신뢰구간을 포함한 탐지기별 AUROC를 제시합니다. 우리의 결과는 현재 AI 텍스트 탐지 기술의 심각한 강건성 결함을 드러내고, StealthRL이 체계적인 적대적 평가 프로토콜로 자리매김함을 입증합니다. 코드와 평가 파이프라인은 https://github.com/suraj-ranganath/StealthRL에서 공개되어 있습니다.
English
AI-text detectors face a critical robustness challenge: adversarial paraphrasing attacks that preserve semantics while evading detection. We introduce StealthRL, a reinforcement learning framework that stress-tests detector robustness under realistic adversarial conditions. StealthRL trains a paraphrase policy against a multi-detector ensemble using Group Relative Policy Optimization (GRPO) with LoRA adapters on Qwen3-4B, optimizing a composite reward that balances detector evasion with semantic preservation. We evaluate six attack settings (M0-M5) against three detector families (RoBERTa, FastDetectGPT, and Binoculars) at the security-relevant 1% false positive rate operating point. StealthRL achieves near-zero detection (0.001 mean TPR@1%FPR), reduces mean AUROC from 0.74 to 0.27, and attains a 99.9% attack success rate. Critically, attacks transfer to a held-out detector family not seen during training, revealing shared architectural vulnerabilities rather than detector-specific brittleness. We additionally conduct LLM-based quality evaluation via Likert scoring, analyze detector score distributions to explain why evasion succeeds, and provide per-detector AUROC with bootstrap confidence intervals. Our results expose significant robustness gaps in current AI-text detection and establish StealthRL as a principled adversarial evaluation protocol. Code and evaluation pipeline are publicly available at https://github.com/suraj-ranganath/StealthRL.
PDF01February 13, 2026