StealthRL: Attacchi di Parafrasi con Apprendimento per Rinforzo per l'Elusione Multi-Rilevatore dei Rilevatori di Testo IA

Abstract

I rilevatori di testo AI affrontano una sfida critica di robustezza: attacchi parafrasanti avversari che preservano la semantica mentre eludono il rilevamento. Introduciamo StealthRL, un framework di reinforcement learning che stressa la robustezza dei rilevatori in condizioni avversarie realistiche. StealthRL addestra una politica di parafrasi contro un ensemble multi-rilevatore utilizzando Group Relative Policy Optimization (GRPO) con adattatori LoRA su Qwen3-4B, ottimizzando una ricompensa composita che bilancia l'elusione del rilevatore con la preservazione semantica. Valutiamo sei impostazioni di attacco (M0-M5) contro tre famiglie di rilevatori (RoBERTa, FastDetectGPT e Binoculars) al punto operativo rilevante per la sicurezza dell'1% di tasso di falsi positivi. StealthRL raggiunge un rilevamento quasi nullo (TPR medio@1%FPR = 0.001), riduce l'AUROC medio da 0.74 a 0.27 e ottiene un tasso di successo dell'attacco del 99.9%. Criticamente, gli attacchi si trasferiscono a una famiglia di rilevatori tenuta da parte non vista durante l'addestramento, rivelando vulnerabilità architetturali condivise piuttosto che fragilità specifiche del rilevatore. Inoltre, conduciamo una valutazione della qualità basata su LLM tramite punteggio Likert, analizziamo le distribuzioni dei punteggi dei rilevatori per spiegare perché l'elusione ha successo e forniamo l'AUROC per rilevatore con intervalli di confidenza bootstrap. I nostri risultati espongono significativi gap di robustezza nell'attuale rilevamento di testo AI e stabiliscono StealthRL come un protocollo di valutazione avversaria principiato. Il codice e la pipeline di valutazione sono pubblicamente disponibili su https://github.com/suraj-ranganath/StealthRL.

English

AI-text detectors face a critical robustness challenge: adversarial paraphrasing attacks that preserve semantics while evading detection. We introduce StealthRL, a reinforcement learning framework that stress-tests detector robustness under realistic adversarial conditions. StealthRL trains a paraphrase policy against a multi-detector ensemble using Group Relative Policy Optimization (GRPO) with LoRA adapters on Qwen3-4B, optimizing a composite reward that balances detector evasion with semantic preservation. We evaluate six attack settings (M0-M5) against three detector families (RoBERTa, FastDetectGPT, and Binoculars) at the security-relevant 1% false positive rate operating point. StealthRL achieves near-zero detection (0.001 mean TPR@1%FPR), reduces mean AUROC from 0.74 to 0.27, and attains a 99.9% attack success rate. Critically, attacks transfer to a held-out detector family not seen during training, revealing shared architectural vulnerabilities rather than detector-specific brittleness. We additionally conduct LLM-based quality evaluation via Likert scoring, analyze detector score distributions to explain why evasion succeeds, and provide per-detector AUROC with bootstrap confidence intervals. Our results expose significant robustness gaps in current AI-text detection and establish StealthRL as a principled adversarial evaluation protocol. Code and evaluation pipeline are publicly available at https://github.com/suraj-ranganath/StealthRL.

StealthRL: Attacchi di Parafrasi con Apprendimento per Rinforzo per l'Elusione Multi-Rilevatore dei Rilevatori di Testo IA

StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors

Abstract

Support