Auto-RT: Exploración Automática de Estrategias de Jailbreak para la Red Team de Modelos de Lenguaje Grandes

Resumen

La realización automatizada de red teaming se ha convertido en un enfoque crucial para descubrir vulnerabilidades en modelos de lenguaje grandes (LLMs). Sin embargo, la mayoría de los métodos existentes se centran en fallos de seguridad aislados, limitando su capacidad para adaptarse a defensas dinámicas y descubrir vulnerabilidades complejas de manera eficiente. Para abordar este desafío, proponemos Auto-RT, un marco de aprendizaje por refuerzo que explora y optimiza automáticamente estrategias de ataque complejas para descubrir de manera efectiva vulnerabilidades de seguridad a través de consultas maliciosas. Específicamente, introducimos dos mecanismos clave para reducir la complejidad de la exploración y mejorar la optimización de estrategias: 1) Exploración con terminación anticipada, que acelera la exploración al centrarse en estrategias de ataque con alto potencial; y 2) Algoritmo de Seguimiento de Recompensas Progresivas con modelos de degradación intermedia, que refinan dinámicamente la trayectoria de búsqueda hacia la explotación exitosa de vulnerabilidades. Experimentos extensos en diversos LLMs demuestran que, al mejorar significativamente la eficiencia de la exploración y optimizar automáticamente las estrategias de ataque, Auto-RT detecta un rango más amplio de vulnerabilidades, logrando una detección más rápida y tasas de éxito un 16.63\% más altas en comparación con los métodos existentes.

English

Automated red-teaming has become a crucial approach for uncovering vulnerabilities in large language models (LLMs). However, most existing methods focus on isolated safety flaws, limiting their ability to adapt to dynamic defenses and uncover complex vulnerabilities efficiently. To address this challenge, we propose Auto-RT, a reinforcement learning framework that automatically explores and optimizes complex attack strategies to effectively uncover security vulnerabilities through malicious queries. Specifically, we introduce two key mechanisms to reduce exploration complexity and improve strategy optimization: 1) Early-terminated Exploration, which accelerate exploration by focusing on high-potential attack strategies; and 2) Progressive Reward Tracking algorithm with intermediate downgrade models, which dynamically refine the search trajectory toward successful vulnerability exploitation. Extensive experiments across diverse LLMs demonstrate that, by significantly improving exploration efficiency and automatically optimizing attack strategies, Auto-RT detects a boarder range of vulnerabilities, achieving a faster detection speed and 16.63\% higher success rates compared to existing methods.