WildTeaming à grande échelle : Des jailbreaks in-the-wild vers des modèles de langage (adversarialement) plus sûrs
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models
June 26, 2024
Auteurs: Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri
cs.AI
Résumé
Nous présentons WildTeaming, un cadre automatique de red teaming pour la sécurité des LLM qui exploite les interactions utilisateur-chatbot dans des conditions réelles pour découvrir 5 700 clusters uniques de nouvelles tactiques de jailbreak, puis combine plusieurs tactiques pour une exploration systématique de nouveaux jailbreaks. Contrairement aux travaux antérieurs qui réalisaient le red teaming via des travailleurs humains recrutés, une optimisation basée sur le gradient, ou une révision itérative avec des LLM, notre étude examine les jailbreaks provenant d'utilisateurs de chatbots qui n'étaient pas spécifiquement incités à contourner le système. WildTeaming révèle des vulnérabilités jusqu'alors inconnues des LLM de pointe, générant jusqu'à 4,6 fois plus d'attaques adverses diversifiées et réussies par rapport aux méthodes de jailbreak les plus avancées.
Bien que de nombreux ensembles de données existent pour l'évaluation des jailbreaks, très peu de jeux de données open source sont disponibles pour l'entraînement au jailbreak, car les données de sécurité sont souvent fermées même lorsque les poids des modèles sont ouverts. Avec WildTeaming, nous créons WildJailbreak, un ensemble de données synthétique open source à grande échelle contenant 262 000 paires de prompts-réponses de type vanilla (requêtes directes) et adverses (jailbreaks complexes). Pour atténuer les comportements de sécurité excessifs, WildJailbreak propose deux types de requêtes contrastées : 1) des requêtes nuisibles (vanilla et adverses) et 2) des requêtes bénignes qui ressemblent en forme aux requêtes nuisibles mais ne contiennent aucun mal. Comme WildJailbreak améliore considérablement la qualité et l'échelle des ressources de sécurité existantes, il nous permet d'examiner les effets de mise à l'échelle des données et l'interaction entre les propriétés des données et les capacités des modèles lors de l'entraînement à la sécurité. À travers des expériences approfondies, nous identifions les propriétés d'entraînement qui permettent un équilibre idéal des comportements de sécurité : une protection appropriée sans refus excessif, une gestion efficace des requêtes vanilla et adverses, et une diminution minimale, voire nulle, des capacités générales. Tous les composants de WildJailbreak contribuent à atteindre des comportements de sécurité équilibrés des modèles.
English
We introduce WildTeaming, an automatic LLM safety red-teaming framework that
mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of
novel jailbreak tactics, and then composes multiple tactics for systematic
exploration of novel jailbreaks. Compared to prior work that performed
red-teaming via recruited human workers, gradient-based optimization, or
iterative revision with LLMs, our work investigates jailbreaks from chatbot
users who were not specifically instructed to break the system. WildTeaming
reveals previously unidentified vulnerabilities of frontier LLMs, resulting in
up to 4.6x more diverse and successful adversarial attacks compared to
state-of-the-art jailbreak methods.
While many datasets exist for jailbreak evaluation, very few open-source
datasets exist for jailbreak training, as safety training data has been closed
even when model weights are open. With WildTeaming we create WildJailbreak, a
large-scale open-source synthetic safety dataset with 262K vanilla (direct
request) and adversarial (complex jailbreak) prompt-response pairs. To mitigate
exaggerated safety behaviors, WildJailbreak provides two contrastive types of
queries: 1) harmful queries (vanilla & adversarial) and 2) benign queries that
resemble harmful queries in form but contain no harm. As WildJailbreak
considerably upgrades the quality and scale of existing safety resources, it
uniquely enables us to examine the scaling effects of data and the interplay of
data properties and model capabilities during safety training. Through
extensive experiments, we identify the training properties that enable an ideal
balance of safety behaviors: appropriate safeguarding without over-refusal,
effective handling of vanilla and adversarial queries, and minimal, if any,
decrease in general capabilities. All components of WildJailbeak contribute to
achieving balanced safety behaviors of models.Summary
AI-Generated Summary