ChatPaper.aiChatPaper

StealthRL: Ataques de Paráfrasis por Aprendizaje por Refuerzo para la Evasión Multi-Detector de Identificadores de Texto Generado por IA

StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors

February 9, 2026
Autores: Suraj Ranganath, Atharv Ramesh
cs.AI

Resumen

Los detectores de texto generado por IA enfrentan un desafío crítico de robustez: los ataques de paráfrasis adversarial que preservan la semántica mientras evaden la detección. Presentamos StealthRL, un marco de aprendizaje por refuerzo que evalúa la robustez de los detectores bajo condiciones adversariales realistas. StealthRL entrena una política de paráfrasis contra un conjunto de múltiples detectores utilizando Optimización de Política Relativa Grupal (GRPO) con adaptadores LoRA en Qwen3-4B, optimizando una recompensa compuesta que equilibra la evasión del detector con la preservación semántica. Evaluamos seis configuraciones de ataque (M0-M5) contra tres familias de detectores (RoBERTa, FastDetectGPT y Binoculars) en el punto de operación de seguridad relevante con una tasa de falsos positivos del 1%. StealthRL logra una detección casi nula (TPR@1%FPR media de 0.001), reduce la AUROC media de 0.74 a 0.27 y alcanza una tasa de éxito de ataque del 99.9%. Críticamente, los ataques se transfieren a una familia de detectores excluida no vista durante el entrenamiento, revelando vulnerabilidades arquitectónicas compartidas en lugar de fragilidad específica del detector. Adicionalmente, realizamos una evaluación de calidad basada en LLM mediante puntuación Likert, analizamos las distribuciones de puntuación de los detectores para explicar por qué la evasión tiene éxito y proporcionamos la AUROC por detector con intervalos de confianza bootstrap. Nuestros resultados exponen brechas significativas de robustez en la detección actual de texto generado por IA y establecen a StealthRL como un protocolo de evaluación adversarial fundamentado. El código y la pipeline de evaluación están disponibles públicamente en https://github.com/suraj-ranganath/StealthRL.
English
AI-text detectors face a critical robustness challenge: adversarial paraphrasing attacks that preserve semantics while evading detection. We introduce StealthRL, a reinforcement learning framework that stress-tests detector robustness under realistic adversarial conditions. StealthRL trains a paraphrase policy against a multi-detector ensemble using Group Relative Policy Optimization (GRPO) with LoRA adapters on Qwen3-4B, optimizing a composite reward that balances detector evasion with semantic preservation. We evaluate six attack settings (M0-M5) against three detector families (RoBERTa, FastDetectGPT, and Binoculars) at the security-relevant 1% false positive rate operating point. StealthRL achieves near-zero detection (0.001 mean TPR@1%FPR), reduces mean AUROC from 0.74 to 0.27, and attains a 99.9% attack success rate. Critically, attacks transfer to a held-out detector family not seen during training, revealing shared architectural vulnerabilities rather than detector-specific brittleness. We additionally conduct LLM-based quality evaluation via Likert scoring, analyze detector score distributions to explain why evasion succeeds, and provide per-detector AUROC with bootstrap confidence intervals. Our results expose significant robustness gaps in current AI-text detection and establish StealthRL as a principled adversarial evaluation protocol. Code and evaluation pipeline are publicly available at https://github.com/suraj-ranganath/StealthRL.
PDF01February 13, 2026