ChatPaper.aiChatPaper

Lebenslange Sicherheitsausrichtung für Sprachmodelle

Lifelong Safety Alignment for Language Models

May 26, 2025
Autoren: Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang
cs.AI

Zusammenfassung

LLMs haben beeindruckende Fortschritte gemacht, doch ihre zunehmenden Fähigkeiten machen sie auch anfällig für hochflexible Jailbreaking-Angriffe, die darauf abzielen, die Sicherheitsausrichtung zu umgehen. Während sich viele bestehende Verteidigungsmechanismen auf bekannte Angriffsarten konzentrieren, ist es entscheidender, LLMs auf unbekannte Angriffe vorzubereiten, die während des Einsatzes auftreten können. Um dies zu adressieren, schlagen wir ein Framework für lebenslange Sicherheitsausrichtung vor, das es LLMs ermöglicht, sich kontinuierlich an neue und sich entwickelnde Jailbreaking-Strategien anzupassen. Unser Framework führt einen Wettbewerb zwischen zwei Komponenten ein: einem Meta-Angreifer, der darauf trainiert ist, aktiv neue Jailbreaking-Strategien zu entdecken, und einem Verteidiger, der darauf trainiert ist, diesen zu widerstehen. Um den Meta-Angreifer effektiv vorzubereiten, nutzen wir zunächst die GPT-4o-API, um Schlüsselinformationen aus einer umfangreichen Sammlung von Forschungsarbeiten im Zusammenhang mit Jailbreaking zu extrahieren. Durch iteratives Training erreicht der Meta-Angreifer der ersten Iteration eine Angriffserfolgsrate (ASR) von 73 % auf RR und eine Transfer-ASR von 57 % auf LAT, wobei nur Einzelzugriffsangriffe verwendet werden. Gleichzeitig verbessert der Verteidiger kontinuierlich seine Robustheit und reduziert schließlich die Erfolgsrate des Meta-Angreifers auf nur 7 %, was eine sicherere und zuverlässigere Bereitstellung von LLMs in offenen Umgebungen ermöglicht. Der Code ist verfügbar unter https://github.com/sail-sg/LifelongSafetyAlignment.
English
LLMs have made impressive progress, but their growing capabilities also expose them to highly flexible jailbreaking attacks designed to bypass safety alignment. While many existing defenses focus on known types of attacks, it is more critical to prepare LLMs for unseen attacks that may arise during deployment. To address this, we propose a lifelong safety alignment framework that enables LLMs to continuously adapt to new and evolving jailbreaking strategies. Our framework introduces a competitive setup between two components: a Meta-Attacker, trained to actively discover novel jailbreaking strategies, and a Defender, trained to resist them. To effectively warm up the Meta-Attacker, we first leverage the GPT-4o API to extract key insights from a large collection of jailbreak-related research papers. Through iterative training, the first iteration Meta-Attacker achieves a 73% attack success rate (ASR) on RR and a 57% transfer ASR on LAT using only single-turn attacks. Meanwhile, the Defender progressively improves its robustness and ultimately reduces the Meta-Attacker's success rate to just 7%, enabling safer and more reliable deployment of LLMs in open-ended environments. The code is available at https://github.com/sail-sg/LifelongSafetyAlignment.

Summary

AI-Generated Summary

PDF231May 27, 2025