ChatPaper.aiChatPaper

Alignement de Sécurité à Vie pour les Modèles de Langage

Lifelong Safety Alignment for Language Models

May 26, 2025
Auteurs: Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) ont réalisé des progrès impressionnants, mais leurs capacités croissantes les exposent également à des attaques de contournement hautement flexibles conçues pour contourner les mesures de sécurité. Bien que de nombreuses défenses existantes se concentrent sur des types d’attaques connus, il est plus crucial de préparer les LLMs à des attaques inédites qui pourraient survenir lors de leur déploiement. Pour répondre à ce défi, nous proposons un cadre d’alignement de sécurité continu qui permet aux LLMs de s’adapter en permanence à de nouvelles stratégies de contournement en évolution. Notre cadre introduit une configuration compétitive entre deux composants : un Méta-Attaqueur, entraîné à découvrir activement de nouvelles stratégies de contournement, et un Défenseur, entraîné à y résister. Pour amorcer efficacement le Méta-Attaqueur, nous exploitons d’abord l’API GPT-4o pour extraire des insights clés d’une vaste collection d’articles de recherche liés aux contournements. Grâce à un entraînement itératif, le Méta-Attaqueur de la première itération atteint un taux de réussite d’attaque (ASR) de 73 % sur RR et un ASR de transfert de 57 % sur LAT en utilisant uniquement des attaques en un seul tour. Parallèlement, le Défenseur améliore progressivement sa robustesse et réduit finalement le taux de réussite du Méta-Attaqueur à seulement 7 %, permettant un déploiement plus sûr et plus fiable des LLMs dans des environnements ouverts. Le code est disponible à l’adresse suivante : https://github.com/sail-sg/LifelongSafetyAlignment.
English
LLMs have made impressive progress, but their growing capabilities also expose them to highly flexible jailbreaking attacks designed to bypass safety alignment. While many existing defenses focus on known types of attacks, it is more critical to prepare LLMs for unseen attacks that may arise during deployment. To address this, we propose a lifelong safety alignment framework that enables LLMs to continuously adapt to new and evolving jailbreaking strategies. Our framework introduces a competitive setup between two components: a Meta-Attacker, trained to actively discover novel jailbreaking strategies, and a Defender, trained to resist them. To effectively warm up the Meta-Attacker, we first leverage the GPT-4o API to extract key insights from a large collection of jailbreak-related research papers. Through iterative training, the first iteration Meta-Attacker achieves a 73% attack success rate (ASR) on RR and a 57% transfer ASR on LAT using only single-turn attacks. Meanwhile, the Defender progressively improves its robustness and ultimately reduces the Meta-Attacker's success rate to just 7%, enabling safer and more reliable deployment of LLMs in open-ended environments. The code is available at https://github.com/sail-sg/LifelongSafetyAlignment.

Summary

AI-Generated Summary

PDF231May 27, 2025