ChatPaper.aiChatPaper

X-Teaming: Mehrfach-Jailbreaks und Abwehrmaßnahmen mit adaptiven Multi-Agenten-Systemen

X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

April 15, 2025
Autoren: Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel
cs.AI

Zusammenfassung

Mehrfachinteraktionen mit Sprachmodellen (LMs) bergen kritische Sicherheitsrisiken, da schädliche Absichten strategisch über mehrere Austausche verteilt werden können. Dennoch hat sich der Großteil der bisherigen Arbeiten auf die Sicherheit in Einzelinteraktionen konzentriert, während Anpassungsfähigkeit und Vielfalt weiterhin zu den zentralen Herausforderungen des Multi-Turn-Red-Teamings gehören. Um diese Herausforderungen zu bewältigen, stellen wir X-Teaming vor, ein skalierbares Framework, das systematisch untersucht, wie scheinbar harmlose Interaktionen in schädliche Ergebnisse eskalieren, und entsprechende Angriffsszenarien generiert. X-Teaming setzt kollaborative Agenten für die Planung, Angriffsoptimierung und Verifizierung ein und erreicht dabei state-of-the-art Effektivität und Vielfalt bei Multi-Turn-Jailbreaks mit Erfolgsquoten von bis zu 98,1 % über repräsentative führende Open-Weight- und Closed-Source-Modelle. Insbesondere erzielt X-Teaming eine Angriffserfolgsrate von 96,2 % gegen das neueste Claude 3.7 Sonnet-Modell, das bisher als nahezu immun gegen Einzelangriffe galt. Aufbauend auf X-Teaming führen wir XGuard-Train ein, einen Open-Source-Datensatz für Multi-Turn-Sicherheitstraining, der 20-mal größer ist als die bisher beste Ressource und 30.000 interaktive Jailbreaks umfasst, um eine robuste Multi-Turn-Sicherheitsausrichtung für LMs zu ermöglichen. Unsere Arbeit bietet wesentliche Werkzeuge und Erkenntnisse zur Abwehr ausgeklügelter konversationeller Angriffe und fördert die Multi-Turn-Sicherheit von LMs.
English
Multi-turn interactions with language models (LMs) pose critical safety risks, as harmful intent can be strategically spread across exchanges. Yet, the vast majority of prior work has focused on single-turn safety, while adaptability and diversity remain among the key challenges of multi-turn red-teaming. To address these challenges, we present X-Teaming, a scalable framework that systematically explores how seemingly harmless interactions escalate into harmful outcomes and generates corresponding attack scenarios. X-Teaming employs collaborative agents for planning, attack optimization, and verification, achieving state-of-the-art multi-turn jailbreak effectiveness and diversity with success rates up to 98.1% across representative leading open-weight and closed-source models. In particular, X-Teaming achieves a 96.2% attack success rate against the latest Claude 3.7 Sonnet model, which has been considered nearly immune to single-turn attacks. Building on X-Teaming, we introduce XGuard-Train, an open-source multi-turn safety training dataset that is 20x larger than the previous best resource, comprising 30K interactive jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our work offers essential tools and insights for mitigating sophisticated conversational attacks, advancing the multi-turn safety of LMs.

Summary

AI-Generated Summary

PDF302April 22, 2025