WildTeaming im großen Maßstab: Von Jailbreaks in freier Wildbahn zu (adversarisch) sichereren Sprachmodellen

Zusammenfassung

Wir stellen WildTeaming vor, ein automatisches LLM-Sicherheits-Red-Teaming-Framework, das in-the-wild Benutzer-Chatbot-Interaktionen analysiert, um 5,7K einzigartige Cluster von neuartigen Jailbreak-Taktiken zu entdecken und dann mehrere Taktiken für die systematische Erforschung von neuen Jailbreaks zusammenstellt. Im Vergleich zu früheren Arbeiten, die Red-Teaming über rekrutierte menschliche Arbeiter, gradientenbasierte Optimierung oder iterative Überarbeitung mit LLMs durchgeführt haben, untersucht unsere Arbeit Jailbreaks von Chatbot-Benutzern, die nicht explizit angewiesen wurden, das System zu umgehen. WildTeaming deckt zuvor unentdeckte Schwachstellen von modernen LLMs auf, was zu bis zu 4,6-mal vielfältigeren und erfolgreichen feindlichen Angriffen im Vergleich zu modernsten Jailbreak-Methoden führt. Obwohl viele Datensätze für die Bewertung von Jailbreaks existieren, gibt es nur sehr wenige Open-Source-Datensätze für das Training von Jailbreaks, da Sicherheitstrainingsdaten geschlossen waren, selbst wenn die Modellgewichte offen waren. Mit WildTeaming erstellen wir WildJailbreak, einen groß angelegten Open-Source-synthetischen Sicherheitsdatensatz mit 262K Vanilla (direkte Anfrage) und adversarialen (komplexe Jailbreak) Eingabe-Antwort-Paaren. Um übertriebene Sicherheitsverhaltensweisen zu mildern, bietet WildJailbreak zwei kontrastierende Arten von Abfragen: 1) schädliche Abfragen (Vanilla & adversarial) und 2) harmlose Abfragen, die schädlichen Abfragen in Form ähneln, aber keinen Schaden enthalten. Da WildJailbreak die Qualität und den Umfang der vorhandenen Sicherheitsressourcen erheblich verbessert, ermöglicht es uns einzigartig, die Skalierungseffekte von Daten und das Zusammenspiel von Datenattributen und Modellfähigkeiten während des Sicherheitstrainings zu untersuchen. Durch umfangreiche Experimente identifizieren wir die Trainingsattribute, die ein ideales Gleichgewicht von Sicherheitsverhalten ermöglichen: angemessener Schutz ohne Überverweigerung, effektive Behandlung von Vanilla- und adversarialen Abfragen sowie minimale, wenn überhaupt, Abnahme der allgemeinen Fähigkeiten. Alle Komponenten von WildJailbreak tragen dazu bei, ein ausgewogenes Sicherheitsverhalten der Modelle zu erreichen.

English

We introduce WildTeaming, an automatic LLM safety red-teaming framework that mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of novel jailbreak tactics, and then composes multiple tactics for systematic exploration of novel jailbreaks. Compared to prior work that performed red-teaming via recruited human workers, gradient-based optimization, or iterative revision with LLMs, our work investigates jailbreaks from chatbot users who were not specifically instructed to break the system. WildTeaming reveals previously unidentified vulnerabilities of frontier LLMs, resulting in up to 4.6x more diverse and successful adversarial attacks compared to state-of-the-art jailbreak methods. While many datasets exist for jailbreak evaluation, very few open-source datasets exist for jailbreak training, as safety training data has been closed even when model weights are open. With WildTeaming we create WildJailbreak, a large-scale open-source synthetic safety dataset with 262K vanilla (direct request) and adversarial (complex jailbreak) prompt-response pairs. To mitigate exaggerated safety behaviors, WildJailbreak provides two contrastive types of queries: 1) harmful queries (vanilla & adversarial) and 2) benign queries that resemble harmful queries in form but contain no harm. As WildJailbreak considerably upgrades the quality and scale of existing safety resources, it uniquely enables us to examine the scaling effects of data and the interplay of data properties and model capabilities during safety training. Through extensive experiments, we identify the training properties that enable an ideal balance of safety behaviors: appropriate safeguarding without over-refusal, effective handling of vanilla and adversarial queries, and minimal, if any, decrease in general capabilities. All components of WildJailbeak contribute to achieving balanced safety behaviors of models.

WildTeaming im großen Maßstab: Von Jailbreaks in freier Wildbahn zu (adversarisch) sichereren Sprachmodellen

WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

Zusammenfassung

Support