WildTeaming op Schaal: Van In-the-Wild Jailbreaks naar (Adversarieel) Veiligere Taalmodellen
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models
June 26, 2024
Auteurs: Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri
cs.AI
Samenvatting
We introduceren WildTeaming, een automatisch LLM-veiligheidsred-teaming-framework dat in-the-wild gebruikers-chatbotinteracties analyseert om 5,7K unieke clusters van nieuwe jailbreak-tactieken te ontdekken, en vervolgens meerdere tactieken combineert voor systematische exploratie van nieuwe jailbreaks. In vergelijking met eerder werk dat red-teaming uitvoerde via gerekruteerde menselijke werkers, op gradienten gebaseerde optimalisatie of iteratieve revisie met LLM's, onderzoekt ons werk jailbreaks van chatbotgebruikers die niet specifiek werden geïnstrueerd om het systeem te omzeilen. WildTeaming onthult voorheen niet-geïdentificeerde kwetsbaarheden van frontier-LLM's, wat resulteert in tot 4,6x meer diverse en succesvolle adversariële aanvallen in vergelijking met state-of-the-art jailbreak-methoden.
Hoewel er veel datasets bestaan voor jailbreak-evaluatie, zijn er zeer weinig open-source datasets beschikbaar voor jailbreak-training, aangezien veiligheidstrainingsdata gesloten is gebleven, zelfs wanneer modelgewichten openbaar zijn gemaakt. Met WildTeaming creëren we WildJailbreak, een grootschalige open-source synthetische veiligheidsdataset met 262K vanilla (directe verzoeken) en adversariële (complexe jailbreak) prompt-responsparen. Om overdreven veiligheidsgedrag te mitigeren, biedt WildJailbreak twee contrasterende typen queries: 1) schadelijke queries (vanilla & adversariëel) en 2) goedaardige queries die qua vorm lijken op schadelijke queries maar geen schade bevatten. Aangezien WildJailbreak de kwaliteit en schaal van bestaande veiligheidsbronnen aanzienlijk verbetert, stelt het ons in staat om de schaaleffecten van data en de wisselwerking tussen data-eigenschappen en modelcapaciteiten tijdens veiligheidstraining te onderzoeken. Door uitgebreide experimenten identificeren we de trainingseigenschappen die een ideale balans van veiligheidsgedrag mogelijk maken: passende bescherming zonder overmatige weigering, effectieve afhandeling van vanilla en adversariële queries, en een minimale, indien aanwezig, afname van algemene capaciteiten. Alle componenten van WildJailbreak dragen bij aan het bereiken van gebalanceerde veiligheidsgedragingen van modellen.
English
We introduce WildTeaming, an automatic LLM safety red-teaming framework that
mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of
novel jailbreak tactics, and then composes multiple tactics for systematic
exploration of novel jailbreaks. Compared to prior work that performed
red-teaming via recruited human workers, gradient-based optimization, or
iterative revision with LLMs, our work investigates jailbreaks from chatbot
users who were not specifically instructed to break the system. WildTeaming
reveals previously unidentified vulnerabilities of frontier LLMs, resulting in
up to 4.6x more diverse and successful adversarial attacks compared to
state-of-the-art jailbreak methods.
While many datasets exist for jailbreak evaluation, very few open-source
datasets exist for jailbreak training, as safety training data has been closed
even when model weights are open. With WildTeaming we create WildJailbreak, a
large-scale open-source synthetic safety dataset with 262K vanilla (direct
request) and adversarial (complex jailbreak) prompt-response pairs. To mitigate
exaggerated safety behaviors, WildJailbreak provides two contrastive types of
queries: 1) harmful queries (vanilla & adversarial) and 2) benign queries that
resemble harmful queries in form but contain no harm. As WildJailbreak
considerably upgrades the quality and scale of existing safety resources, it
uniquely enables us to examine the scaling effects of data and the interplay of
data properties and model capabilities during safety training. Through
extensive experiments, we identify the training properties that enable an ideal
balance of safety behaviors: appropriate safeguarding without over-refusal,
effective handling of vanilla and adversarial queries, and minimal, if any,
decrease in general capabilities. All components of WildJailbeak contribute to
achieving balanced safety behaviors of models.