ChatPaper.aiChatPaper

X-Teaming: Jailbreak a Turni Multipli e Difese con Agenti Multipli Adattivi

X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

April 15, 2025
Autori: Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel
cs.AI

Abstract

Le interazioni multi-turno con i modelli linguistici (LM) presentano rischi critici per la sicurezza, poiché intenti dannosi possono essere strategicamente distribuiti tra più scambi. Tuttavia, la stragrande maggioranza del lavoro precedente si è concentrata sulla sicurezza a singolo turno, mentre l'adattabilità e la diversità rimangono tra le principali sfide del red-teaming multi-turno. Per affrontare queste sfide, presentiamo X-Teaming, un framework scalabile che esplora sistematicamente come interazioni apparentemente innocue possano degenerare in esiti dannosi e genera scenari di attacco corrispondenti. X-Teaming utilizza agenti collaborativi per la pianificazione, l'ottimizzazione degli attacchi e la verifica, raggiungendo un'efficacia e una diversità all'avanguardia nel jailbreak multi-turno, con tassi di successo fino al 98,1% su modelli rappresentativi open-weight e closed-source. In particolare, X-Teaming ottiene un tasso di successo del 96,2% contro l'ultimo modello Claude 3.7 Sonnet, considerato quasi immune agli attacchi a singolo turno. Basandoci su X-Teaming, introduciamo XGuard-Train, un dataset open-source per l'addestramento alla sicurezza multi-turno, 20 volte più grande della migliore risorsa precedente, composto da 30K jailbreak interattivi, progettato per consentire un allineamento robusto alla sicurezza multi-turno per i LM. Il nostro lavoro offre strumenti e approfondimenti essenziali per mitigare attacchi conversazionali sofisticati, avanzando la sicurezza multi-turno dei LM.
English
Multi-turn interactions with language models (LMs) pose critical safety risks, as harmful intent can be strategically spread across exchanges. Yet, the vast majority of prior work has focused on single-turn safety, while adaptability and diversity remain among the key challenges of multi-turn red-teaming. To address these challenges, we present X-Teaming, a scalable framework that systematically explores how seemingly harmless interactions escalate into harmful outcomes and generates corresponding attack scenarios. X-Teaming employs collaborative agents for planning, attack optimization, and verification, achieving state-of-the-art multi-turn jailbreak effectiveness and diversity with success rates up to 98.1% across representative leading open-weight and closed-source models. In particular, X-Teaming achieves a 96.2% attack success rate against the latest Claude 3.7 Sonnet model, which has been considered nearly immune to single-turn attacks. Building on X-Teaming, we introduce XGuard-Train, an open-source multi-turn safety training dataset that is 20x larger than the previous best resource, comprising 30K interactive jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our work offers essential tools and insights for mitigating sophisticated conversational attacks, advancing the multi-turn safety of LMs.

Summary

AI-Generated Summary

PDF302April 22, 2025