Colaboração Selvagem em Escala: De Jailbreaks na Natureza a Modelos de Linguagem (Adversarialmente) Mais Seguros
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models
June 26, 2024
Autores: Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri
cs.AI
Resumo
Apresentamos o WildTeaming, um framework automático de red-teaming de segurança de LLM que minera interações de usuário-chatbot em ambiente real para descobrir 5,7 mil clusters exclusivos de novas táticas de jailbreak, e em seguida compõe múltiplas táticas para exploração sistemática de novos jailbreaks. Em comparação com trabalhos anteriores que realizaram red-teaming por meio de recrutamento de trabalhadores humanos, otimização baseada em gradiente ou revisão iterativa com LLMs, nosso trabalho investiga jailbreaks de usuários de chatbot que não foram especificamente instruídos a violar o sistema. O WildTeaming revela vulnerabilidades previamente não identificadas dos LLMs de fronteira, resultando em até 4,6 vezes mais ataques adversariais diversos e bem-sucedidos em comparação com métodos de jailbreak de ponta.
Embora existam muitos conjuntos de dados para avaliação de jailbreak, existem muito poucos conjuntos de dados de código aberto para treinamento de jailbreak, uma vez que os dados de treinamento de segurança foram fechados mesmo quando os pesos do modelo estão abertos. Com o WildTeaming, criamos o WildJailbreak, um conjunto de dados sintéticos de segurança de grande escala de código aberto com 262 mil pares de prompt-resposta de solicitação direta (baunilha) e adversarial (jailbreak complexo). Para mitigar comportamentos de segurança exagerados, o WildJailbreak fornece dois tipos contrastantes de consultas: 1) consultas prejudiciais (baunilha e adversariais) e 2) consultas benignas que se assemelham a consultas prejudiciais em forma, mas não contêm danos. Como o WildJailbreak melhora consideravelmente a qualidade e escala dos recursos de segurança existentes, ele nos permite examinar de forma única os efeitos de escalonamento de dados e a interação das propriedades dos dados e capacidades do modelo durante o treinamento de segurança. Por meio de experimentos extensivos, identificamos as propriedades de treinamento que possibilitam um equilíbrio ideal de comportamentos de segurança: proteção adequada sem recusas excessivas, manipulação eficaz de consultas baunilha e adversariais, e diminuição mínima, se houver, nas capacidades gerais. Todos os componentes do WildJailbreak contribuem para alcançar comportamentos de segurança equilibrados dos modelos.
English
We introduce WildTeaming, an automatic LLM safety red-teaming framework that
mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of
novel jailbreak tactics, and then composes multiple tactics for systematic
exploration of novel jailbreaks. Compared to prior work that performed
red-teaming via recruited human workers, gradient-based optimization, or
iterative revision with LLMs, our work investigates jailbreaks from chatbot
users who were not specifically instructed to break the system. WildTeaming
reveals previously unidentified vulnerabilities of frontier LLMs, resulting in
up to 4.6x more diverse and successful adversarial attacks compared to
state-of-the-art jailbreak methods.
While many datasets exist for jailbreak evaluation, very few open-source
datasets exist for jailbreak training, as safety training data has been closed
even when model weights are open. With WildTeaming we create WildJailbreak, a
large-scale open-source synthetic safety dataset with 262K vanilla (direct
request) and adversarial (complex jailbreak) prompt-response pairs. To mitigate
exaggerated safety behaviors, WildJailbreak provides two contrastive types of
queries: 1) harmful queries (vanilla & adversarial) and 2) benign queries that
resemble harmful queries in form but contain no harm. As WildJailbreak
considerably upgrades the quality and scale of existing safety resources, it
uniquely enables us to examine the scaling effects of data and the interplay of
data properties and model capabilities during safety training. Through
extensive experiments, we identify the training properties that enable an ideal
balance of safety behaviors: appropriate safeguarding without over-refusal,
effective handling of vanilla and adversarial queries, and minimal, if any,
decrease in general capabilities. All components of WildJailbeak contribute to
achieving balanced safety behaviors of models.