ChatPaper.aiChatPaper

X-Teaming: Jailbreaks de Múltiples Turnos y Defensas con Agentes Múltiples Adaptativos

X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

April 15, 2025
Autores: Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel
cs.AI

Resumen

Las interacciones de múltiples turnos con modelos de lenguaje (LM) plantean riesgos críticos de seguridad, ya que las intenciones dañinas pueden distribuirse estratégicamente a lo largo de los intercambios. Sin embargo, la gran mayoría de trabajos previos se ha centrado en la seguridad de un solo turno, mientras que la adaptabilidad y la diversidad siguen siendo desafíos clave en el red-teaming de múltiples turnos. Para abordar estos desafíos, presentamos X-Teaming, un marco escalable que explora sistemáticamente cómo interacciones aparentemente inofensivas escalan hacia resultados dañinos y genera escenarios de ataque correspondientes. X-Teaming emplea agentes colaborativos para la planificación, optimización de ataques y verificación, logrando una efectividad y diversidad de jailbreak de múltiples turnos de última generación, con tasas de éxito de hasta el 98,1% en modelos representativos líderes, tanto de código abierto como cerrados. En particular, X-Teaming alcanza una tasa de éxito de ataque del 96,2% contra el último modelo Claude 3.7 Sonnet, que se consideraba casi inmune a ataques de un solo turno. Basándonos en X-Teaming, introducimos XGuard-Train, un conjunto de datos de entrenamiento de seguridad de múltiples turnos de código abierto que es 20 veces más grande que el mejor recurso anterior, compuesto por 30K jailbreaks interactivos, diseñado para permitir una alineación de seguridad robusta en múltiples turnos para los LM. Nuestro trabajo ofrece herramientas y conocimientos esenciales para mitigar ataques conversacionales sofisticados, avanzando en la seguridad de múltiples turnos de los LM.
English
Multi-turn interactions with language models (LMs) pose critical safety risks, as harmful intent can be strategically spread across exchanges. Yet, the vast majority of prior work has focused on single-turn safety, while adaptability and diversity remain among the key challenges of multi-turn red-teaming. To address these challenges, we present X-Teaming, a scalable framework that systematically explores how seemingly harmless interactions escalate into harmful outcomes and generates corresponding attack scenarios. X-Teaming employs collaborative agents for planning, attack optimization, and verification, achieving state-of-the-art multi-turn jailbreak effectiveness and diversity with success rates up to 98.1% across representative leading open-weight and closed-source models. In particular, X-Teaming achieves a 96.2% attack success rate against the latest Claude 3.7 Sonnet model, which has been considered nearly immune to single-turn attacks. Building on X-Teaming, we introduce XGuard-Train, an open-source multi-turn safety training dataset that is 20x larger than the previous best resource, comprising 30K interactive jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our work offers essential tools and insights for mitigating sophisticated conversational attacks, advancing the multi-turn safety of LMs.

Summary

AI-Generated Summary

PDF302April 22, 2025