Clasificadores Constitucionales: Defendiendo contra Jailbreaks Universales a lo largo de Miles de Horas de Red Teaming
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
January 31, 2025
Autores: Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) son vulnerables a jailbreaks universales, estrategias que evaden sistemáticamente las protecciones del modelo y permiten a los usuarios llevar a cabo procesos dañinos que requieren muchas interacciones del modelo, como la fabricación de sustancias ilegales a gran escala. Para defenderse contra estos ataques, presentamos Clasificadores Constitucionales: salvaguardias entrenadas con datos sintéticos, generados al promover a los LLMs con reglas de lenguaje natural (es decir, una constitución) que especifican el contenido permitido y restringido. En más de 3,000 horas estimadas de simulación de atacantes, ningún miembro del equipo de ataque encontró un jailbreak universal que pudiera extraer información de un LLM protegido por un clasificador temprano a un nivel de detalle similar al de un modelo desprotegido en la mayoría de las consultas objetivo. En evaluaciones automatizadas, los clasificadores mejorados demostraron una defensa robusta contra jailbreaks específicos de dominio no revelados. Estos clasificadores también mantienen la viabilidad de implementación, con un aumento absoluto del 0.38% en rechazos de tráfico de producción y un sobrecosto de inferencia del 23.7%. Nuestro trabajo demuestra que defenderse contra jailbreaks universales manteniendo una viabilidad práctica de implementación es factible.
English
Large language models (LLMs) are vulnerable to universal jailbreaks-prompting
strategies that systematically bypass model safeguards and enable users to
carry out harmful processes that require many model interactions, like
manufacturing illegal substances at scale. To defend against these attacks, we
introduce Constitutional Classifiers: safeguards trained on synthetic data,
generated by prompting LLMs with natural language rules (i.e., a constitution)
specifying permitted and restricted content. In over 3,000 estimated hours of
red teaming, no red teamer found a universal jailbreak that could extract
information from an early classifier-guarded LLM at a similar level of detail
to an unguarded model across most target queries. On automated evaluations,
enhanced classifiers demonstrated robust defense against held-out
domain-specific jailbreaks. These classifiers also maintain deployment
viability, with an absolute 0.38% increase in production-traffic refusals and a
23.7% inference overhead. Our work demonstrates that defending against
universal jailbreaks while maintaining practical deployment viability is
tractable.Summary
AI-Generated Summary