ChatPaper.aiChatPaper

Alinhamento de Segurança Contínua para Modelos de Linguagem

Lifelong Safety Alignment for Language Models

May 26, 2025
Autores: Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang
cs.AI

Resumo

Os LLMs (Modelos de Linguagem de Grande Escala) têm feito progressos impressionantes, mas suas capacidades crescentes também os expõem a ataques de jailbreaking altamente flexíveis, projetados para contornar o alinhamento de segurança. Embora muitas defesas existentes se concentrem em tipos conhecidos de ataques, é mais crítico preparar os LLMs para ataques não vistos que possam surgir durante a implantação. Para abordar isso, propomos um framework de alinhamento de segurança contínuo que permite que os LLMs se adaptem continuamente a novas e evolutivas estratégias de jailbreaking. Nosso framework introduz uma configuração competitiva entre dois componentes: um Meta-Atacante, treinado para descobrir ativamente novas estratégias de jailbreaking, e um Defensor, treinado para resistir a elas. Para aquecer efetivamente o Meta-Atacante, primeiro utilizamos a API do GPT-4 para extrair insights-chave de uma grande coleção de artigos de pesquisa relacionados a jailbreaking. Por meio de treinamento iterativo, o Meta-Atacante da primeira iteração alcança uma taxa de sucesso de ataque (ASR) de 73% no RR e uma ASR de transferência de 57% no LAT usando apenas ataques de turno único. Enquanto isso, o Defensor melhora progressivamente sua robustez e, por fim, reduz a taxa de sucesso do Meta-Atacante para apenas 7%, permitindo uma implantação mais segura e confiável de LLMs em ambientes abertos. O código está disponível em https://github.com/sail-sg/LifelongSafetyAlignment.
English
LLMs have made impressive progress, but their growing capabilities also expose them to highly flexible jailbreaking attacks designed to bypass safety alignment. While many existing defenses focus on known types of attacks, it is more critical to prepare LLMs for unseen attacks that may arise during deployment. To address this, we propose a lifelong safety alignment framework that enables LLMs to continuously adapt to new and evolving jailbreaking strategies. Our framework introduces a competitive setup between two components: a Meta-Attacker, trained to actively discover novel jailbreaking strategies, and a Defender, trained to resist them. To effectively warm up the Meta-Attacker, we first leverage the GPT-4o API to extract key insights from a large collection of jailbreak-related research papers. Through iterative training, the first iteration Meta-Attacker achieves a 73% attack success rate (ASR) on RR and a 57% transfer ASR on LAT using only single-turn attacks. Meanwhile, the Defender progressively improves its robustness and ultimately reduces the Meta-Attacker's success rate to just 7%, enabling safer and more reliable deployment of LLMs in open-ended environments. The code is available at https://github.com/sail-sg/LifelongSafetyAlignment.
PDF231December 16, 2025