X-Teaming：適応型マルチエージェントを用いたマルチターンジャイルブレイクと防御

要旨

言語モデル（LM）との多ターンインタラクションは、有害な意図が戦略的にやり取りに分散されるため、重大な安全リスクを引き起こします。しかし、これまでの研究の大部分は単一ターンの安全性に焦点を当てており、多ターンレッドチーミングの主要な課題として適応性と多様性が残されています。これらの課題に対処するため、私たちはX-Teamingを提案します。これは、一見無害なインタラクションがどのように有害な結果にエスカレートするかを体系的に探り、対応する攻撃シナリオを生成するスケーラブルなフレームワークです。X-Teamingは、計画、攻撃最適化、検証のための協調エージェントを採用し、代表的なオープンウェイトおよびクローズドソースモデルにおいて、最大98.1%の成功率で最先端の多ターンジャイルブレイク効果と多様性を達成します。特に、X-Teamingは最新のClaude 3.7 Sonnetモデルに対して96.2%の攻撃成功率を達成し、このモデルは単一ターン攻撃に対してほぼ免疫があるとされていました。X-Teamingを基盤として、私たちはXGuard-Trainを紹介します。これは、以前の最良のリソースよりも20倍大きい、30Kのインタラクティブジャイルブレイクを含むオープンソースの多ターン安全性トレーニングデータセットであり、LMの堅牢な多ターン安全性アライメントを可能にするために設計されています。私たちの研究は、洗練された会話攻撃を緩和するための重要なツールと洞察を提供し、LMの多ターン安全性を前進させます。

English

Multi-turn interactions with language models (LMs) pose critical safety risks, as harmful intent can be strategically spread across exchanges. Yet, the vast majority of prior work has focused on single-turn safety, while adaptability and diversity remain among the key challenges of multi-turn red-teaming. To address these challenges, we present X-Teaming, a scalable framework that systematically explores how seemingly harmless interactions escalate into harmful outcomes and generates corresponding attack scenarios. X-Teaming employs collaborative agents for planning, attack optimization, and verification, achieving state-of-the-art multi-turn jailbreak effectiveness and diversity with success rates up to 98.1% across representative leading open-weight and closed-source models. In particular, X-Teaming achieves a 96.2% attack success rate against the latest Claude 3.7 Sonnet model, which has been considered nearly immune to single-turn attacks. Building on X-Teaming, we introduce XGuard-Train, an open-source multi-turn safety training dataset that is 20x larger than the previous best resource, comprising 30K interactive jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our work offers essential tools and insights for mitigating sophisticated conversational attacks, advancing the multi-turn safety of LMs.