X-Teaming : Contournements multi-tours et défenses avec des agents multi-adaptatifs
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents
April 15, 2025
Auteurs: Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel
cs.AI
Résumé
Les interactions multi-tours avec les modèles de langage (LMs) présentent des risques de sécurité critiques, car des intentions malveillantes peuvent être stratégiquement disséminées à travers plusieurs échanges. Pourtant, la grande majorité des travaux antérieurs s'est concentrée sur la sécurité en un seul tour, tandis que l'adaptabilité et la diversité restent parmi les principaux défis du red-teaming multi-tours. Pour relever ces défis, nous présentons X-Teaming, un cadre évolutif qui explore systématiquement comment des interactions apparemment inoffensives peuvent dégénérer en résultats nuisibles et génère des scénarios d'attaque correspondants. X-Teaming utilise des agents collaboratifs pour la planification, l'optimisation des attaques et la vérification, atteignant une efficacité et une diversité de jailbreak multi-tours de pointe avec des taux de réussite allant jusqu'à 98,1% sur des modèles open-weight et propriétaires leaders. En particulier, X-Teaming atteint un taux de réussite d'attaque de 96,2% contre le dernier modèle Claude 3.7 Sonnet, considéré comme quasi-immunisé aux attaques en un seul tour. Sur la base de X-Teaming, nous introduisons XGuard-Train, un ensemble de données open-source pour l'entraînement à la sécurité multi-tours, 20 fois plus volumineux que la meilleure ressource précédente, comprenant 30K jailbreaks interactifs, conçu pour permettre un alignement robuste de la sécurité multi-tours pour les LMs. Notre travail offre des outils et des insights essentiels pour atténuer les attaques conversationnelles sophistiquées, faisant progresser la sécurité multi-tours des LMs.
English
Multi-turn interactions with language models (LMs) pose critical safety
risks, as harmful intent can be strategically spread across exchanges. Yet, the
vast majority of prior work has focused on single-turn safety, while
adaptability and diversity remain among the key challenges of multi-turn
red-teaming. To address these challenges, we present X-Teaming, a scalable
framework that systematically explores how seemingly harmless interactions
escalate into harmful outcomes and generates corresponding attack scenarios.
X-Teaming employs collaborative agents for planning, attack optimization, and
verification, achieving state-of-the-art multi-turn jailbreak effectiveness and
diversity with success rates up to 98.1% across representative leading
open-weight and closed-source models. In particular, X-Teaming achieves a 96.2%
attack success rate against the latest Claude 3.7 Sonnet model, which has been
considered nearly immune to single-turn attacks. Building on X-Teaming, we
introduce XGuard-Train, an open-source multi-turn safety training dataset that
is 20x larger than the previous best resource, comprising 30K interactive
jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our
work offers essential tools and insights for mitigating sophisticated
conversational attacks, advancing the multi-turn safety of LMs.Summary
AI-Generated Summary