Optimización de Políticas Reforzadas por Diálogo Basado en Árboles para Ataques de Equipo Rojo
Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks
October 2, 2025
Autores: Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth
cs.AI
Resumen
A pesar del rápido progreso reciente en la seguridad de la IA, los modelos de lenguaje grandes actuales siguen siendo vulnerables a ataques adversarios en entornos de interacción de múltiples turnos, donde los atacantes adaptan estratégicamente sus indicaciones a lo largo de los turnos de conversación y representan un desafío más crítico y realista. Los enfoques existentes que descubren vulnerabilidades de seguridad dependen ya sea de pruebas de penetración manuales con expertos humanos o emplean métodos automatizados utilizando plantillas predefinidas y datos de ataque curados por humanos, centrándose principalmente en ataques de un solo turno. Sin embargo, estos métodos no exploraron el vasto espacio de posibles ataques de múltiples turnos, omitiendo considerar trayectorias de ataque novedosas que surgen de dinámicas de diálogo complejas y planificación estratégica de conversaciones. Esta brecha es particularmente crítica dado los hallazgos recientes de que los modelos de lenguaje grandes exhiben una vulnerabilidad significativamente mayor a ataques de múltiples turnos en comparación con ataques de un solo turno. Proponemos DialTree-RPO, un marco de aprendizaje por refuerzo on-policy integrado con búsqueda en árbol que descubre de manera autónoma diversas estrategias de ataque de múltiples turnos al tratar el diálogo como un problema de toma de decisiones secuencial, permitiendo una exploración sistemática sin datos curados manualmente. A través de experimentos extensos, nuestro enfoque no solo logra un ASR más de un 25.9% superior en 10 modelos objetivo en comparación con los enfoques más avanzados anteriores, sino que también descubre efectivamente nuevas estrategias de ataque al aprender políticas de diálogo óptimas que maximizan el éxito del ataque a lo largo de múltiples turnos.
English
Despite recent rapid progress in AI safety, current large language models
remain vulnerable to adversarial attacks in multi-turn interaction settings,
where attackers strategically adapt their prompts across conversation turns and
pose a more critical yet realistic challenge. Existing approaches that discover
safety vulnerabilities either rely on manual red-teaming with human experts or
employ automated methods using pre-defined templates and human-curated attack
data, with most focusing on single-turn attacks. However, these methods did not
explore the vast space of possible multi-turn attacks, failing to consider
novel attack trajectories that emerge from complex dialogue dynamics and
strategic conversation planning. This gap is particularly critical given recent
findings that LLMs exhibit significantly higher vulnerability to multi-turn
attacks compared to single-turn attacks. We propose DialTree-RPO, an on-policy
reinforcement learning framework integrated with tree search that autonomously
discovers diverse multi-turn attack strategies by treating the dialogue as a
sequential decision-making problem, enabling systematic exploration without
manually curated data. Through extensive experiments, our approach not only
achieves more than 25.9% higher ASR across 10 target models compared to
previous state-of-the-art approaches, but also effectively uncovers new attack
strategies by learning optimal dialogue policies that maximize attack success
across multiple turns.