X-Teaming:適応型マルチエージェントを用いたマルチターンジャイルブレイクと防御
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents
April 15, 2025
著者: Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel
cs.AI
要旨
言語モデル(LM)との多ターンインタラクションは、有害な意図が戦略的にやり取りに分散されるため、重大な安全リスクを引き起こします。しかし、これまでの研究の大部分は単一ターンの安全性に焦点を当てており、多ターンレッドチーミングの主要な課題として適応性と多様性が残されています。これらの課題に対処するため、私たちはX-Teamingを提案します。これは、一見無害なインタラクションがどのように有害な結果にエスカレートするかを体系的に探り、対応する攻撃シナリオを生成するスケーラブルなフレームワークです。X-Teamingは、計画、攻撃最適化、検証のための協調エージェントを採用し、代表的なオープンウェイトおよびクローズドソースモデルにおいて、最大98.1%の成功率で最先端の多ターンジャイルブレイク効果と多様性を達成します。特に、X-Teamingは最新のClaude 3.7 Sonnetモデルに対して96.2%の攻撃成功率を達成し、このモデルは単一ターン攻撃に対してほぼ免疫があるとされていました。X-Teamingを基盤として、私たちはXGuard-Trainを紹介します。これは、以前の最良のリソースよりも20倍大きい、30Kのインタラクティブジャイルブレイクを含むオープンソースの多ターン安全性トレーニングデータセットであり、LMの堅牢な多ターン安全性アライメントを可能にするために設計されています。私たちの研究は、洗練された会話攻撃を緩和するための重要なツールと洞察を提供し、LMの多ターン安全性を前進させます。
English
Multi-turn interactions with language models (LMs) pose critical safety
risks, as harmful intent can be strategically spread across exchanges. Yet, the
vast majority of prior work has focused on single-turn safety, while
adaptability and diversity remain among the key challenges of multi-turn
red-teaming. To address these challenges, we present X-Teaming, a scalable
framework that systematically explores how seemingly harmless interactions
escalate into harmful outcomes and generates corresponding attack scenarios.
X-Teaming employs collaborative agents for planning, attack optimization, and
verification, achieving state-of-the-art multi-turn jailbreak effectiveness and
diversity with success rates up to 98.1% across representative leading
open-weight and closed-source models. In particular, X-Teaming achieves a 96.2%
attack success rate against the latest Claude 3.7 Sonnet model, which has been
considered nearly immune to single-turn attacks. Building on X-Teaming, we
introduce XGuard-Train, an open-source multi-turn safety training dataset that
is 20x larger than the previous best resource, comprising 30K interactive
jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our
work offers essential tools and insights for mitigating sophisticated
conversational attacks, advancing the multi-turn safety of LMs.Summary
AI-Generated Summary