Alineación de Seguridad Continua para Modelos de Lenguaje
Lifelong Safety Alignment for Language Models
May 26, 2025
Autores: Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang
cs.AI
Resumen
Los LLM han logrado avances impresionantes, pero sus crecientes capacidades también los exponen a ataques de jailbreaking altamente flexibles diseñados para eludir la alineación de seguridad. Si bien muchas defensas existentes se centran en tipos de ataques conocidos, es más crítico preparar a los LLM para ataques no vistos que puedan surgir durante su despliegue. Para abordar esto, proponemos un marco de alineación de seguridad continua que permite a los LLM adaptarse constantemente a nuevas y evolutivas estrategias de jailbreaking. Nuestro marco introduce una configuración competitiva entre dos componentes: un Meta-Atacante, entrenado para descubrir activamente nuevas estrategias de jailbreaking, y un Defensor, entrenado para resistirlas. Para preparar eficazmente al Meta-Atacante, primero aprovechamos la API de GPT-4 para extraer ideas clave de una gran colección de artículos de investigación relacionados con jailbreaking. A través de un entrenamiento iterativo, el Meta-Atacante de la primera iteración logra una tasa de éxito de ataque (ASR) del 73% en RR y una ASR de transferencia del 57% en LAT utilizando solo ataques de una sola vuelta. Mientras tanto, el Defensor mejora progresivamente su robustez y finalmente reduce la tasa de éxito del Meta-Atacante a solo un 7%, permitiendo un despliegue más seguro y confiable de los LLM en entornos abiertos. El código está disponible en https://github.com/sail-sg/LifelongSafetyAlignment.
English
LLMs have made impressive progress, but their growing capabilities also
expose them to highly flexible jailbreaking attacks designed to bypass safety
alignment. While many existing defenses focus on known types of attacks, it is
more critical to prepare LLMs for unseen attacks that may arise during
deployment. To address this, we propose a lifelong safety alignment framework
that enables LLMs to continuously adapt to new and evolving jailbreaking
strategies. Our framework introduces a competitive setup between two
components: a Meta-Attacker, trained to actively discover novel jailbreaking
strategies, and a Defender, trained to resist them. To effectively warm up the
Meta-Attacker, we first leverage the GPT-4o API to extract key insights from a
large collection of jailbreak-related research papers. Through iterative
training, the first iteration Meta-Attacker achieves a 73% attack success rate
(ASR) on RR and a 57% transfer ASR on LAT using only single-turn attacks.
Meanwhile, the Defender progressively improves its robustness and ultimately
reduces the Meta-Attacker's success rate to just 7%, enabling safer and more
reliable deployment of LLMs in open-ended environments. The code is available
at https://github.com/sail-sg/LifelongSafetyAlignment.Summary
AI-Generated Summary