X-Teaming: Jailbreaks de Múltiplos Turnos e Defesas com Multiagentes Adaptativos
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents
April 15, 2025
Autores: Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel
cs.AI
Resumo
Interações multi-turn com modelos de linguagem (LMs) apresentam riscos críticos de segurança, pois intenções maliciosas podem ser estrategicamente distribuídas ao longo das trocas. No entanto, a grande maioria dos trabalhos anteriores focou na segurança em turnos únicos, enquanto a adaptabilidade e a diversidade permanecem entre os principais desafios do red-teaming multi-turn. Para abordar esses desafios, apresentamos o X-Teaming, um framework escalável que explora sistematicamente como interações aparentemente inofensivas escalam para resultados prejudiciais e gera cenários de ataque correspondentes. O X-Teaming emprega agentes colaborativos para planejamento, otimização de ataques e verificação, alcançando eficácia e diversidade de jailbreak multi-turn de última geração, com taxas de sucesso de até 98,1% em modelos líderes representativos de código aberto e proprietários. Em particular, o X-Teaming alcança uma taxa de sucesso de ataque de 96,2% contra o mais recente modelo Claude 3.7 Sonnet, que era considerado quase imune a ataques de turno único. Com base no X-Teaming, introduzimos o XGuard-Train, um conjunto de dados de treinamento de segurança multi-turn de código aberto que é 20 vezes maior que o melhor recurso anterior, composto por 30K jailbreaks interativos, projetado para permitir um alinhamento robusto de segurança multi-turn para LMs. Nosso trabalho oferece ferramentas e insights essenciais para mitigar ataques conversacionais sofisticados, avançando a segurança multi-turn dos LMs.
English
Multi-turn interactions with language models (LMs) pose critical safety
risks, as harmful intent can be strategically spread across exchanges. Yet, the
vast majority of prior work has focused on single-turn safety, while
adaptability and diversity remain among the key challenges of multi-turn
red-teaming. To address these challenges, we present X-Teaming, a scalable
framework that systematically explores how seemingly harmless interactions
escalate into harmful outcomes and generates corresponding attack scenarios.
X-Teaming employs collaborative agents for planning, attack optimization, and
verification, achieving state-of-the-art multi-turn jailbreak effectiveness and
diversity with success rates up to 98.1% across representative leading
open-weight and closed-source models. In particular, X-Teaming achieves a 96.2%
attack success rate against the latest Claude 3.7 Sonnet model, which has been
considered nearly immune to single-turn attacks. Building on X-Teaming, we
introduce XGuard-Train, an open-source multi-turn safety training dataset that
is 20x larger than the previous best resource, comprising 30K interactive
jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our
work offers essential tools and insights for mitigating sophisticated
conversational attacks, advancing the multi-turn safety of LMs.Summary
AI-Generated Summary