ChatPaper.aiChatPaper

Classificateurs constitutionnels : Défense contre les jailbreaks universels à travers des milliers d'heures de simulation d'intrusion.

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

January 31, 2025
Auteurs: Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez
cs.AI

Résumé

Les grands modèles de langage (LLMs) sont vulnérables aux jailbreaks universels, des stratégies qui contournent systématiquement les protections des modèles et permettent aux utilisateurs d'effectuer des processus nuisibles nécessitant de nombreuses interactions avec le modèle, comme la fabrication à grande échelle de substances illégales. Pour se défendre contre ces attaques, nous introduisons des Classifieurs Constitutionnels : des protections entraînées sur des données synthétiques, générées en soumettant les LLMs à des règles de langage naturel (c'est-à-dire une constitution) spécifiant le contenu autorisé et restreint. Sur plus de 3 000 heures estimées de tests d'intrusion, aucun testeur n'a trouvé de jailbreak universel capable d'extraire des informations d'un LLM protégé par un classifieur précoce avec un niveau de détail similaire à celui d'un modèle non protégé pour la plupart des requêtes ciblées. Lors d'évaluations automatisées, les classifieurs améliorés ont démontré une défense robuste contre les jailbreaks spécifiques à un domaine non divulgué. Ces classifieurs maintiennent également leur viabilité en déploiement, avec une augmentation absolue de 0,38 % des refus de trafic de production et un surcoût d'inférence de 23,7 %. Notre travail montre qu'il est possible de se défendre contre les jailbreaks universels tout en maintenant une viabilité pratique en déploiement.
English
Large language models (LLMs) are vulnerable to universal jailbreaks-prompting strategies that systematically bypass model safeguards and enable users to carry out harmful processes that require many model interactions, like manufacturing illegal substances at scale. To defend against these attacks, we introduce Constitutional Classifiers: safeguards trained on synthetic data, generated by prompting LLMs with natural language rules (i.e., a constitution) specifying permitted and restricted content. In over 3,000 estimated hours of red teaming, no red teamer found a universal jailbreak that could extract information from an early classifier-guarded LLM at a similar level of detail to an unguarded model across most target queries. On automated evaluations, enhanced classifiers demonstrated robust defense against held-out domain-specific jailbreaks. These classifiers also maintain deployment viability, with an absolute 0.38% increase in production-traffic refusals and a 23.7% inference overhead. Our work demonstrates that defending against universal jailbreaks while maintaining practical deployment viability is tractable.
PDF105February 3, 2025