StealthRL: Ataques de Paráfrase por Aprendizagem por Reforço para Evasão Multi-Detetor de Identificadores de Texto IA

Resumo

Os detectores de texto gerado por IA enfrentam um desafio crítico de robustez: ataques de paráfrase adversarial que preservam a semântica enquanto evadem a detecção. Apresentamos o StealthRL, uma estrutura de aprendizagem por reforço que testa a robustez dos detectores sob condições adversarial realistas. O StealthRL treina uma política de paráfrase contra um conjunto de múltiplos detectores usando o Group Relative Policy Optimization (GRPO) com adaptadores LoRA no modelo Qwen3-4B, otimizando uma recompensa composta que equilibra a evasão do detector com a preservação semântica. Avaliamos seis configurações de ataque (M0-M5) contra três famílias de detectores (RoBERTa, FastDetectGPT e Binoculars) no ponto de operação clinicamente relevante de taxa de falsos positivos de 1%. O StealthRL alcança detecção próxima de zero (TPR@1%FPR média de 0,001), reduz a AUROC média de 0,74 para 0,27 e atinge uma taxa de sucesso de ataque de 99,9%. Criticamente, os ataques transferem-se para uma família de detectores excluída não vista durante o treinamento, revelando vulnerabilidades arquitetónicas partilhadas em vez de fragilidades específicas de um detector. Adicionalmente, conduzimos uma avaliação de qualidade baseada em LLM através de pontuação Likert, analisamos as distribuições de pontuação dos detectores para explicar por que a evasão é bem-sucedida e fornecemos a AUROC por detector com intervalos de confiança de *bootstrap*. Os nossos resultados expõem lacunas significativas de robustez na detecção atual de texto de IA e estabelecem o StealthRL como um protocolo de avaliação adversarial fundamentado. O código e o *pipeline* de avaliação estão publicamente disponíveis em https://github.com/suraj-ranganath/StealthRL.

English

AI-text detectors face a critical robustness challenge: adversarial paraphrasing attacks that preserve semantics while evading detection. We introduce StealthRL, a reinforcement learning framework that stress-tests detector robustness under realistic adversarial conditions. StealthRL trains a paraphrase policy against a multi-detector ensemble using Group Relative Policy Optimization (GRPO) with LoRA adapters on Qwen3-4B, optimizing a composite reward that balances detector evasion with semantic preservation. We evaluate six attack settings (M0-M5) against three detector families (RoBERTa, FastDetectGPT, and Binoculars) at the security-relevant 1% false positive rate operating point. StealthRL achieves near-zero detection (0.001 mean TPR@1%FPR), reduces mean AUROC from 0.74 to 0.27, and attains a 99.9% attack success rate. Critically, attacks transfer to a held-out detector family not seen during training, revealing shared architectural vulnerabilities rather than detector-specific brittleness. We additionally conduct LLM-based quality evaluation via Likert scoring, analyze detector score distributions to explain why evasion succeeds, and provide per-detector AUROC with bootstrap confidence intervals. Our results expose significant robustness gaps in current AI-text detection and establish StealthRL as a principled adversarial evaluation protocol. Code and evaluation pipeline are publicly available at https://github.com/suraj-ranganath/StealthRL.

StealthRL: Ataques de Paráfrase por Aprendizagem por Reforço para Evasão Multi-Detetor de Identificadores de Texto IA

StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors

Resumo

Support