ChatPaper.aiChatPaper

WildTeaming su larga scala: dai jailbreak in-the-wild a modelli linguistici (avversarialmente) più sicuri

WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

June 26, 2024
Autori: Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri
cs.AI

Abstract

Introduciamo WildTeaming, un framework automatico di red-teaming per la sicurezza degli LLM che estrae dalle interazioni reali tra utenti e chatbot per scoprire 5.7K cluster unici di nuove tattiche di jailbreak, e poi combina più tattiche per un'esplorazione sistematica di nuovi jailbreak. Rispetto ai lavori precedenti che hanno eseguito red-teaming tramite lavoratori umani reclutati, ottimizzazione basata su gradienti o revisione iterativa con LLM, il nostro lavoro indaga i jailbreak provenienti da utenti di chatbot che non erano specificamente istruiti per violare il sistema. WildTeaming rivela vulnerabilità precedentemente non identificate dei LLM di frontiera, risultando in attacchi avversari fino a 4.6 volte più diversificati e di successo rispetto ai metodi di jailbreak all'avanguardia. Mentre esistono molti dataset per la valutazione dei jailbreak, pochissimi dataset open-source esistono per l'addestramento sui jailbreak, poiché i dati di addestramento sulla sicurezza sono stati chiusi anche quando i pesi del modello sono aperti. Con WildTeaming creiamo WildJailbreak, un dataset sintetico su larga scala e open-source per la sicurezza con 262K coppie prompt-risposta vanilla (richieste dirette) e avversarie (jailbreak complessi). Per mitigare comportamenti di sicurezza esagerati, WildJailbreak fornisce due tipi contrastanti di query: 1) query dannose (vanilla e avversarie) e 2) query benigne che assomigliano nelle forme a quelle dannose ma non contengono alcun danno. Poiché WildJailbreak migliora notevolmente la qualità e la scala delle risorse esistenti per la sicurezza, ci permette in modo unico di esaminare gli effetti di scalabilità dei dati e l'interazione tra proprietà dei dati e capacità del modello durante l'addestramento sulla sicurezza. Attraverso esperimenti estesi, identifichiamo le proprietà di addestramento che consentono un equilibrio ideale dei comportamenti di sicurezza: protezione appropriata senza rifiuti eccessivi, gestione efficace delle query vanilla e avversarie e una diminuzione minima, se presente, delle capacità generali. Tutti i componenti di WildJailbreak contribuiscono al raggiungimento di comportamenti di sicurezza bilanciati nei modelli.
English
We introduce WildTeaming, an automatic LLM safety red-teaming framework that mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of novel jailbreak tactics, and then composes multiple tactics for systematic exploration of novel jailbreaks. Compared to prior work that performed red-teaming via recruited human workers, gradient-based optimization, or iterative revision with LLMs, our work investigates jailbreaks from chatbot users who were not specifically instructed to break the system. WildTeaming reveals previously unidentified vulnerabilities of frontier LLMs, resulting in up to 4.6x more diverse and successful adversarial attacks compared to state-of-the-art jailbreak methods. While many datasets exist for jailbreak evaluation, very few open-source datasets exist for jailbreak training, as safety training data has been closed even when model weights are open. With WildTeaming we create WildJailbreak, a large-scale open-source synthetic safety dataset with 262K vanilla (direct request) and adversarial (complex jailbreak) prompt-response pairs. To mitigate exaggerated safety behaviors, WildJailbreak provides two contrastive types of queries: 1) harmful queries (vanilla & adversarial) and 2) benign queries that resemble harmful queries in form but contain no harm. As WildJailbreak considerably upgrades the quality and scale of existing safety resources, it uniquely enables us to examine the scaling effects of data and the interplay of data properties and model capabilities during safety training. Through extensive experiments, we identify the training properties that enable an ideal balance of safety behaviors: appropriate safeguarding without over-refusal, effective handling of vanilla and adversarial queries, and minimal, if any, decrease in general capabilities. All components of WildJailbeak contribute to achieving balanced safety behaviors of models.
PDF91November 29, 2024