ChatPaper.aiChatPaper

Конституционные классификаторы: Защита от универсальных джейлбрейков на протяжении тысяч часов красного пентестинга.

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

January 31, 2025
Авторы: Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez
cs.AI

Аннотация

Большие языковые модели (LLM) уязвимы для универсальных проникновений, которые систематически обходят защиты модели и позволяют пользователям выполнять вредные процессы, требующие множества взаимодействий с моделью, такие как производство незаконных веществ в масштабе. Для защиты от таких атак мы представляем Конституционные Классификаторы: защиты, обученные на синтетических данных, сгенерированных путем подачи LLM естественноязыковых правил (т. е. конституции), определяющих разрешенное и запрещенное содержание. В течение более чем 3 000 часов оценочных испытаний, ни один участник красной команды не обнаружил универсального проникновения, которое могло бы извлечь информацию из ранее защищенной классификатором LLM на сходном уровне детализации с незащищенной моделью для большинства целевых запросов. При автоматизированных оценках улучшенные классификаторы продемонстрировали надежную защиту от удерживаемых узкоспециализированных проникновений. Эти классификаторы также обеспечивают возможность развертывания, с абсолютным увеличением отказов в производственном трафике на 0,38% и дополнительной нагрузкой на вывод в размере 23,7%. Наша работа показывает, что защита от универсальных проникновений при сохранении практической возможности развертывания является выполнимой.
English
Large language models (LLMs) are vulnerable to universal jailbreaks-prompting strategies that systematically bypass model safeguards and enable users to carry out harmful processes that require many model interactions, like manufacturing illegal substances at scale. To defend against these attacks, we introduce Constitutional Classifiers: safeguards trained on synthetic data, generated by prompting LLMs with natural language rules (i.e., a constitution) specifying permitted and restricted content. In over 3,000 estimated hours of red teaming, no red teamer found a universal jailbreak that could extract information from an early classifier-guarded LLM at a similar level of detail to an unguarded model across most target queries. On automated evaluations, enhanced classifiers demonstrated robust defense against held-out domain-specific jailbreaks. These classifiers also maintain deployment viability, with an absolute 0.38% increase in production-traffic refusals and a 23.7% inference overhead. Our work demonstrates that defending against universal jailbreaks while maintaining practical deployment viability is tractable.

Summary

AI-Generated Summary

PDF105February 3, 2025