Konstitutionelle Klassifikatoren: Verteidigung gegen universelle Jailbreaks über Tausende von Stunden Red Teaming
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
January 31, 2025
Autoren: Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind anfällig für universelle Jailbreaks, die Strategien hervorrufen, die systematisch Modellsicherheitsvorkehrungen umgehen und es Benutzern ermöglichen, schädliche Prozesse durchzuführen, die viele Modellinteraktionen erfordern, wie die Herstellung illegaler Substanzen im großen Maßstab. Um sich gegen diese Angriffe zu verteidigen, führen wir Verfassungsklassifikatoren ein: Sicherheitsvorkehrungen, die auf synthetischen Daten trainiert sind, die durch das Anregen von LLMs mit natürlichsprachlichen Regeln (d.h. einer Verfassung) generiert werden, die erlaubte und eingeschränkte Inhalte festlegen. In über 3.000 geschätzten Stunden des Red Teaming fand kein Red Teamer einen universellen Jailbreak, der Informationen aus einem frühzeitig von einem Klassifikator geschützten LLM auf ähnlichem Detailniveau wie ein ungeschütztes Modell bei den meisten Zielabfragen extrahieren konnte. Bei automatisierten Bewertungen zeigten verbesserte Klassifikatoren eine robuste Verteidigung gegen zurückgehaltene domänenspezifische Jailbreaks. Diese Klassifikatoren gewährleisten auch die Einsatzfähigkeit, mit einer absoluten Zunahme von 0,38% bei Ablehnungen des Produktionsverkehrs und einem Inferenz-Overhead von 23,7%. Unsere Arbeit zeigt, dass es möglich ist, sich gegen universelle Jailbreaks zu verteidigen und gleichzeitig die praktische Einsatzfähigkeit aufrechtzuerhalten.
English
Large language models (LLMs) are vulnerable to universal jailbreaks-prompting
strategies that systematically bypass model safeguards and enable users to
carry out harmful processes that require many model interactions, like
manufacturing illegal substances at scale. To defend against these attacks, we
introduce Constitutional Classifiers: safeguards trained on synthetic data,
generated by prompting LLMs with natural language rules (i.e., a constitution)
specifying permitted and restricted content. In over 3,000 estimated hours of
red teaming, no red teamer found a universal jailbreak that could extract
information from an early classifier-guarded LLM at a similar level of detail
to an unguarded model across most target queries. On automated evaluations,
enhanced classifiers demonstrated robust defense against held-out
domain-specific jailbreaks. These classifiers also maintain deployment
viability, with an absolute 0.38% increase in production-traffic refusals and a
23.7% inference overhead. Our work demonstrates that defending against
universal jailbreaks while maintaining practical deployment viability is
tractable.Summary
AI-Generated Summary