Auto-RT: Exploración Automática de Estrategias de Jailbreak para la Red Team de Modelos de Lenguaje Grandes
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
January 3, 2025
Autores: Yanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun
cs.AI
Resumen
La realización automatizada de red teaming se ha convertido en un enfoque crucial para descubrir vulnerabilidades en modelos de lenguaje grandes (LLMs). Sin embargo, la mayoría de los métodos existentes se centran en fallos de seguridad aislados, limitando su capacidad para adaptarse a defensas dinámicas y descubrir vulnerabilidades complejas de manera eficiente. Para abordar este desafío, proponemos Auto-RT, un marco de aprendizaje por refuerzo que explora y optimiza automáticamente estrategias de ataque complejas para descubrir de manera efectiva vulnerabilidades de seguridad a través de consultas maliciosas. Específicamente, introducimos dos mecanismos clave para reducir la complejidad de la exploración y mejorar la optimización de estrategias: 1) Exploración con terminación anticipada, que acelera la exploración al centrarse en estrategias de ataque con alto potencial; y 2) Algoritmo de Seguimiento de Recompensas Progresivas con modelos de degradación intermedia, que refinan dinámicamente la trayectoria de búsqueda hacia la explotación exitosa de vulnerabilidades. Experimentos extensos en diversos LLMs demuestran que, al mejorar significativamente la eficiencia de la exploración y optimizar automáticamente las estrategias de ataque, Auto-RT detecta un rango más amplio de vulnerabilidades, logrando una detección más rápida y tasas de éxito un 16.63\% más altas en comparación con los métodos existentes.
English
Automated red-teaming has become a crucial approach for uncovering
vulnerabilities in large language models (LLMs). However, most existing methods
focus on isolated safety flaws, limiting their ability to adapt to dynamic
defenses and uncover complex vulnerabilities efficiently. To address this
challenge, we propose Auto-RT, a reinforcement learning framework that
automatically explores and optimizes complex attack strategies to effectively
uncover security vulnerabilities through malicious queries. Specifically, we
introduce two key mechanisms to reduce exploration complexity and improve
strategy optimization: 1) Early-terminated Exploration, which accelerate
exploration by focusing on high-potential attack strategies; and 2) Progressive
Reward Tracking algorithm with intermediate downgrade models, which dynamically
refine the search trajectory toward successful vulnerability exploitation.
Extensive experiments across diverse LLMs demonstrate that, by significantly
improving exploration efficiency and automatically optimizing attack
strategies, Auto-RT detects a boarder range of vulnerabilities, achieving a
faster detection speed and 16.63\% higher success rates compared to existing
methods.Summary
AI-Generated Summary