Alineación de Seguridad Continua para Modelos de Lenguaje

Resumen

Los LLM han logrado avances impresionantes, pero sus crecientes capacidades también los exponen a ataques de jailbreaking altamente flexibles diseñados para eludir la alineación de seguridad. Si bien muchas defensas existentes se centran en tipos de ataques conocidos, es más crítico preparar a los LLM para ataques no vistos que puedan surgir durante su despliegue. Para abordar esto, proponemos un marco de alineación de seguridad continua que permite a los LLM adaptarse constantemente a nuevas y evolutivas estrategias de jailbreaking. Nuestro marco introduce una configuración competitiva entre dos componentes: un Meta-Atacante, entrenado para descubrir activamente nuevas estrategias de jailbreaking, y un Defensor, entrenado para resistirlas. Para preparar eficazmente al Meta-Atacante, primero aprovechamos la API de GPT-4 para extraer ideas clave de una gran colección de artículos de investigación relacionados con jailbreaking. A través de un entrenamiento iterativo, el Meta-Atacante de la primera iteración logra una tasa de éxito de ataque (ASR) del 73% en RR y una ASR de transferencia del 57% en LAT utilizando solo ataques de una sola vuelta. Mientras tanto, el Defensor mejora progresivamente su robustez y finalmente reduce la tasa de éxito del Meta-Atacante a solo un 7%, permitiendo un despliegue más seguro y confiable de los LLM en entornos abiertos. El código está disponible en https://github.com/sail-sg/LifelongSafetyAlignment.

English

LLMs have made impressive progress, but their growing capabilities also expose them to highly flexible jailbreaking attacks designed to bypass safety alignment. While many existing defenses focus on known types of attacks, it is more critical to prepare LLMs for unseen attacks that may arise during deployment. To address this, we propose a lifelong safety alignment framework that enables LLMs to continuously adapt to new and evolving jailbreaking strategies. Our framework introduces a competitive setup between two components: a Meta-Attacker, trained to actively discover novel jailbreaking strategies, and a Defender, trained to resist them. To effectively warm up the Meta-Attacker, we first leverage the GPT-4o API to extract key insights from a large collection of jailbreak-related research papers. Through iterative training, the first iteration Meta-Attacker achieves a 73% attack success rate (ASR) on RR and a 57% transfer ASR on LAT using only single-turn attacks. Meanwhile, the Defender progressively improves its robustness and ultimately reduces the Meta-Attacker's success rate to just 7%, enabling safer and more reliable deployment of LLMs in open-ended environments. The code is available at https://github.com/sail-sg/LifelongSafetyAlignment.

Alineación de Seguridad Continua para Modelos de Lenguaje

Lifelong Safety Alignment for Language Models

Resumen

Support