Constitutionele Classificatoren: Verdediging tegen Universele Jailbreaks over Duizenden Uren van Red Teaming
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
January 31, 2025
Auteurs: Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez
cs.AI
Samenvatting
Grote taalmodellen (LLM's) zijn kwetsbaar voor universele jailbreaks, waarbij strategieën systematisch modelbeveiligingen omzeilen en gebruikers in staat stellen schadelijke processen uit te voeren die veel modelinteracties vereisen, zoals het produceren van illegale stoffen op grote schaal. Om zich te verdedigen tegen deze aanvallen, introduceren we Constitutionele Classificeerders: beveiligingen getraind op synthetische gegevens, gegenereerd door LLM's te stimuleren met natuurlijke taalregels (d.w.z. een grondwet) die toegestane en beperkte inhoud specificeren. In meer dan 3.000 geschatte uren van red teaming vond geen enkele red teamer een universele jailbreak die informatie kon extraheren uit een vroeg door een classifier bewaakt LLM op een vergelijkbaar detailniveau als een onbeschermd model voor de meeste doelzoekopdrachten. Bij geautomatiseerde evaluaties toonden verbeterde classificeerders een robuuste verdediging tegen domain-specifieke jailbreaks die werden achtergehouden. Deze classificeerders behouden ook implementatie levensvatbaarheid, met een absolute toename van 0,38% in weigeringen van productieverkeer en een 23,7% inferentie-overhead. Ons werk toont aan dat verdedigen tegen universele jailbreaks terwijl praktische implementatie levensvatbaarheid behouden blijft, haalbaar is.
English
Large language models (LLMs) are vulnerable to universal jailbreaks-prompting
strategies that systematically bypass model safeguards and enable users to
carry out harmful processes that require many model interactions, like
manufacturing illegal substances at scale. To defend against these attacks, we
introduce Constitutional Classifiers: safeguards trained on synthetic data,
generated by prompting LLMs with natural language rules (i.e., a constitution)
specifying permitted and restricted content. In over 3,000 estimated hours of
red teaming, no red teamer found a universal jailbreak that could extract
information from an early classifier-guarded LLM at a similar level of detail
to an unguarded model across most target queries. On automated evaluations,
enhanced classifiers demonstrated robust defense against held-out
domain-specific jailbreaks. These classifiers also maintain deployment
viability, with an absolute 0.38% increase in production-traffic refusals and a
23.7% inference overhead. Our work demonstrates that defending against
universal jailbreaks while maintaining practical deployment viability is
tractable.Summary
AI-Generated Summary