ChatPaper.aiChatPaper

X-Teaming: 적응형 멀티 에이전트를 활용한 다중 턴 Jailbreak 공격 및 방어

X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

April 15, 2025
저자: Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel
cs.AI

초록

언어 모델(LM)과의 다중 턴 상호작용은 유해한 의도가 전략적으로 여러 교환에 걸쳐 분산될 수 있어 중요한 안전 위험을 초래합니다. 그러나 기존 연구의 대부분은 단일 턴 안전성에 초점을 맞추었으며, 다중 턴 레드 팀링의 주요 과제로 적응성과 다양성이 여전히 남아 있습니다. 이러한 과제를 해결하기 위해, 우리는 X-Teaming을 제안합니다. X-Teaming은 겉보기에는 무해한 상호작용이 어떻게 유해한 결과로 이어지는지를 체계적으로 탐구하고 해당 공격 시나리오를 생성하는 확장 가능한 프레임워크입니다. X-Teaming은 계획, 공격 최적화, 검증을 위해 협업 에이전트를 활용하여 최신 다중 턴 탈옥 효과성과 다양성을 달성하며, 대표적인 오픈 웨이트 및 클로즈드 소스 모델에서 최대 98.1%의 성공률을 보입니다. 특히, X-Teaming은 단일 턴 공격에 거의 면역으로 여겨졌던 최신 Claude 3.7 Sonnet 모델에 대해 96.2%의 공격 성공률을 달성했습니다. X-Teaming을 기반으로, 우리는 XGuard-Train을 소개합니다. 이는 이전 최고 자원보다 20배 큰 오픈소스 다중 턴 안전 훈련 데이터셋으로, 30K의 상호적 탈옥 사례를 포함하며, LM의 견고한 다중 턴 안전 정렬을 가능하게 하도록 설계되었습니다. 우리의 작업은 정교한 대화형 공격을 완화하기 위한 필수 도구와 통찰을 제공함으로써 LM의 다중 턴 안전성을 발전시킵니다.
English
Multi-turn interactions with language models (LMs) pose critical safety risks, as harmful intent can be strategically spread across exchanges. Yet, the vast majority of prior work has focused on single-turn safety, while adaptability and diversity remain among the key challenges of multi-turn red-teaming. To address these challenges, we present X-Teaming, a scalable framework that systematically explores how seemingly harmless interactions escalate into harmful outcomes and generates corresponding attack scenarios. X-Teaming employs collaborative agents for planning, attack optimization, and verification, achieving state-of-the-art multi-turn jailbreak effectiveness and diversity with success rates up to 98.1% across representative leading open-weight and closed-source models. In particular, X-Teaming achieves a 96.2% attack success rate against the latest Claude 3.7 Sonnet model, which has been considered nearly immune to single-turn attacks. Building on X-Teaming, we introduce XGuard-Train, an open-source multi-turn safety training dataset that is 20x larger than the previous best resource, comprising 30K interactive jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our work offers essential tools and insights for mitigating sophisticated conversational attacks, advancing the multi-turn safety of LMs.

Summary

AI-Generated Summary

PDF302April 22, 2025