WildTeaming a Escala: Desde Jailbreaks en el Mundo Real Hacia Modelos de Lenguaje (Adversarialmente) Más Seguros
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models
June 26, 2024
Autores: Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri
cs.AI
Resumen
Presentamos WildTeaming, un marco automático de red-teaming para la seguridad de LLM que extrae interacciones usuario-chatbot en entornos reales para descubrir 5.7K grupos únicos de tácticas novedosas de jailbreak, y luego combina múltiples tácticas para una exploración sistemática de nuevos jailbreaks. En comparación con trabajos anteriores que realizaron red-teaming mediante trabajadores humanos reclutados, optimización basada en gradientes o revisión iterativa con LLMs, nuestro trabajo investiga jailbreaks provenientes de usuarios de chatbots que no fueron específicamente instruidos para vulnerar el sistema. WildTeaming revela vulnerabilidades previamente no identificadas en LLMs de vanguardia, resultando en ataques adversarios hasta 4.6 veces más diversos y exitosos en comparación con los métodos de jailbreak más avanzados.
Mientras existen muchos conjuntos de datos para la evaluación de jailbreaks, muy pocos conjuntos de datos de código abierto están disponibles para el entrenamiento de jailbreaks, ya que los datos de entrenamiento de seguridad han sido cerrados incluso cuando los pesos del modelo son abiertos. Con WildTeaming creamos WildJailbreak, un conjunto de datos sintético de seguridad a gran escala y de código abierto con 262K pares de solicitud-respuesta, tanto simples (solicitudes directas) como adversarias (jailbreaks complejos). Para mitigar comportamientos de seguridad exagerados, WildJailbreak proporciona dos tipos contrastantes de consultas: 1) consultas dañinas (simples y adversarias) y 2) consultas benignas que se asemejan en forma a las dañinas pero no contienen ningún daño. Dado que WildJailbreak mejora considerablemente la calidad y escala de los recursos de seguridad existentes, nos permite examinar de manera única los efectos de escalado de los datos y la interacción de las propiedades de los datos con las capacidades del modelo durante el entrenamiento de seguridad. A través de experimentos extensivos, identificamos las propiedades de entrenamiento que permiten un equilibrio ideal de comportamientos de seguridad: protección adecuada sin rechazo excesivo, manejo efectivo de consultas simples y adversarias, y una disminución mínima, si acaso, en las capacidades generales. Todos los componentes de WildJailbreak contribuyen a lograr comportamientos de seguridad equilibrados en los modelos.
English
We introduce WildTeaming, an automatic LLM safety red-teaming framework that
mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of
novel jailbreak tactics, and then composes multiple tactics for systematic
exploration of novel jailbreaks. Compared to prior work that performed
red-teaming via recruited human workers, gradient-based optimization, or
iterative revision with LLMs, our work investigates jailbreaks from chatbot
users who were not specifically instructed to break the system. WildTeaming
reveals previously unidentified vulnerabilities of frontier LLMs, resulting in
up to 4.6x more diverse and successful adversarial attacks compared to
state-of-the-art jailbreak methods.
While many datasets exist for jailbreak evaluation, very few open-source
datasets exist for jailbreak training, as safety training data has been closed
even when model weights are open. With WildTeaming we create WildJailbreak, a
large-scale open-source synthetic safety dataset with 262K vanilla (direct
request) and adversarial (complex jailbreak) prompt-response pairs. To mitigate
exaggerated safety behaviors, WildJailbreak provides two contrastive types of
queries: 1) harmful queries (vanilla & adversarial) and 2) benign queries that
resemble harmful queries in form but contain no harm. As WildJailbreak
considerably upgrades the quality and scale of existing safety resources, it
uniquely enables us to examine the scaling effects of data and the interplay of
data properties and model capabilities during safety training. Through
extensive experiments, we identify the training properties that enable an ideal
balance of safety behaviors: appropriate safeguarding without over-refusal,
effective handling of vanilla and adversarial queries, and minimal, if any,
decrease in general capabilities. All components of WildJailbeak contribute to
achieving balanced safety behaviors of models.Summary
AI-Generated Summary