ChatPaper.aiChatPaper

Classificadores Constitucionais: Defendendo-se contra Jailbreaks Universais em Milhares de Horas de Red Teaming

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

January 31, 2025
Autores: Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez
cs.AI

Resumo

Os modelos de linguagem de grande escala (LLMs) são vulneráveis a jailbreaks universais - estratégias que contornam sistematicamente as salvaguardas do modelo e permitem aos usuários realizar processos prejudiciais que exigem muitas interações do modelo, como a fabricação de substâncias ilegais em grande escala. Para defender-se contra esses ataques, introduzimos Classificadores Constitucionais: salvaguardas treinadas em dados sintéticos, gerados ao solicitar LLMs com regras de linguagem natural (ou seja, uma constituição) especificando conteúdo permitido e restrito. Em mais de 3.000 horas estimadas de simulação de ataques, nenhum simulador encontrou um jailbreak universal que pudesse extrair informações de um LLM protegido por um classificador inicial em um nível de detalhe semelhante ao de um modelo desprotegido em relação à maioria das consultas-alvo. Em avaliações automatizadas, os classificadores aprimorados demonstraram defesa robusta contra jailbreaks específicos de domínio não utilizados. Esses classificadores também mantêm viabilidade de implantação, com um aumento absoluto de 0,38% em recusas de tráfego de produção e um overhead de inferência de 23,7%. Nosso trabalho demonstra que defender-se contra jailbreaks universais, mantendo viabilidade prática de implantação, é factível.
English
Large language models (LLMs) are vulnerable to universal jailbreaks-prompting strategies that systematically bypass model safeguards and enable users to carry out harmful processes that require many model interactions, like manufacturing illegal substances at scale. To defend against these attacks, we introduce Constitutional Classifiers: safeguards trained on synthetic data, generated by prompting LLMs with natural language rules (i.e., a constitution) specifying permitted and restricted content. In over 3,000 estimated hours of red teaming, no red teamer found a universal jailbreak that could extract information from an early classifier-guarded LLM at a similar level of detail to an unguarded model across most target queries. On automated evaluations, enhanced classifiers demonstrated robust defense against held-out domain-specific jailbreaks. These classifiers also maintain deployment viability, with an absolute 0.38% increase in production-traffic refusals and a 23.7% inference overhead. Our work demonstrates that defending against universal jailbreaks while maintaining practical deployment viability is tractable.

Summary

AI-Generated Summary

PDF105February 3, 2025