Levenslange Veiligheidsafstemming voor Taalmodellen
Lifelong Safety Alignment for Language Models
May 26, 2025
Auteurs: Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang
cs.AI
Samenvatting
LLM's hebben indrukwekkende vooruitgang geboekt, maar hun groeiende mogelijkheden maken ze ook kwetsbaar voor zeer flexibele jailbreaking-aanvallen die zijn ontworpen om veiligheidsafstemming te omzeilen. Hoewel veel bestaande verdedigingsmechanismen zich richten op bekende soorten aanvallen, is het belangrijker om LLM's voor te bereiden op onbekende aanvallen die kunnen ontstaan tijdens implementatie. Om dit aan te pakken, stellen we een raamwerk voor levenslange veiligheidsafstemming voor dat LLM's in staat stelt zich continu aan te passen aan nieuwe en evoluerende jailbreaking-strategieën. Ons raamwerk introduceert een competitieve opzet tussen twee componenten: een Meta-Aanvaller, getraind om actief nieuwe jailbreaking-strategieën te ontdekken, en een Verdediger, getraind om deze te weerstaan. Om de Meta-Aanvaller effectief op te warmen, maken we eerst gebruik van de GPT-4o API om belangrijke inzichten te extraheren uit een grote verzameling onderzoeksartikelen over jailbreaking. Door iteratieve training bereikt de Meta-Aanvaller in de eerste iteratie een aanvalssuccespercentage (ASR) van 73% op RR en een overdraagbaar ASR van 57% op LAT met slechts enkele aanvalsbeurten. Ondertussen verbetert de Verdediger geleidelijk zijn robuustheid en reduceert uiteindelijk het succespercentage van de Meta-Aanvaller tot slechts 7%, waardoor een veiligere en betrouwbaardere implementatie van LLM's in open omgevingen mogelijk wordt. De code is beschikbaar op https://github.com/sail-sg/LifelongSafetyAlignment.
English
LLMs have made impressive progress, but their growing capabilities also
expose them to highly flexible jailbreaking attacks designed to bypass safety
alignment. While many existing defenses focus on known types of attacks, it is
more critical to prepare LLMs for unseen attacks that may arise during
deployment. To address this, we propose a lifelong safety alignment framework
that enables LLMs to continuously adapt to new and evolving jailbreaking
strategies. Our framework introduces a competitive setup between two
components: a Meta-Attacker, trained to actively discover novel jailbreaking
strategies, and a Defender, trained to resist them. To effectively warm up the
Meta-Attacker, we first leverage the GPT-4o API to extract key insights from a
large collection of jailbreak-related research papers. Through iterative
training, the first iteration Meta-Attacker achieves a 73% attack success rate
(ASR) on RR and a 57% transfer ASR on LAT using only single-turn attacks.
Meanwhile, the Defender progressively improves its robustness and ultimately
reduces the Meta-Attacker's success rate to just 7%, enabling safer and more
reliable deployment of LLMs in open-ended environments. The code is available
at https://github.com/sail-sg/LifelongSafetyAlignment.