ChatPaper.aiChatPaper

X-Teaming: Многоходовые атаки на защиту и методы противодействия с использованием адаптивных мультиагентных систем

X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

April 15, 2025
Авторы: Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel
cs.AI

Аннотация

Многоходовые взаимодействия с языковыми моделями (LM) представляют собой серьезные угрозы безопасности, поскольку вредоносные намерения могут быть стратегически распределены между несколькими обменами репликами. Однако подавляющее большинство предыдущих исследований было сосредоточено на безопасности в одноходовых сценариях, в то время как адаптивность и разнообразие остаются ключевыми вызовами в многоходовом тестировании на уязвимости (red-teaming). Для решения этих задач мы представляем X-Teaming — масштабируемую структуру, которая систематически исследует, как внешне безобидные взаимодействия перерастают в вредоносные последствия, и генерирует соответствующие сценарии атак. X-Teaming использует совместно работающих агентов для планирования, оптимизации атак и проверки, достигая наилучших показателей эффективности и разнообразия многоходовых атак с успешностью до 98,1% на ведущих открытых и закрытых моделях. В частности, X-Teaming демонстрирует 96,2% успешности атак против последней модели Claude 3.7 Sonnet, которая считалась практически неуязвимой для одноходовых атак. На основе X-Teaming мы представляем XGuard-Train — открытый набор данных для обучения безопасности в многоходовых сценариях, который в 20 раз превышает предыдущий лучший ресурс и включает 30 тысяч интерактивных атак, предназначенных для обеспечения устойчивой многоходовой безопасности языковых моделей. Наша работа предлагает важные инструменты и идеи для противодействия сложным разговорным атакам, продвигая безопасность языковых моделей в многоходовых взаимодействиях.
English
Multi-turn interactions with language models (LMs) pose critical safety risks, as harmful intent can be strategically spread across exchanges. Yet, the vast majority of prior work has focused on single-turn safety, while adaptability and diversity remain among the key challenges of multi-turn red-teaming. To address these challenges, we present X-Teaming, a scalable framework that systematically explores how seemingly harmless interactions escalate into harmful outcomes and generates corresponding attack scenarios. X-Teaming employs collaborative agents for planning, attack optimization, and verification, achieving state-of-the-art multi-turn jailbreak effectiveness and diversity with success rates up to 98.1% across representative leading open-weight and closed-source models. In particular, X-Teaming achieves a 96.2% attack success rate against the latest Claude 3.7 Sonnet model, which has been considered nearly immune to single-turn attacks. Building on X-Teaming, we introduce XGuard-Train, an open-source multi-turn safety training dataset that is 20x larger than the previous best resource, comprising 30K interactive jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our work offers essential tools and insights for mitigating sophisticated conversational attacks, advancing the multi-turn safety of LMs.

Summary

AI-Generated Summary

PDF302April 22, 2025