憲法的分類器:数千時間にわたるレッドチーミングに対するユニバーサルジェイルブレイクへの防御
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
January 31, 2025
著者: Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez
cs.AI
要旨
大規模言語モデル(LLMs)は普遍的なジェイルブレイクに脆弱であり、モデルの保護を体系的にバイパスし、ユーザーが規模の大きな違法物質の製造など、多くのモデルの相互作用を必要とする有害なプロセスを実行できるようにする戦略に対処するために、我々は憲法分類器を導入します。これらは、合成データでトレーニングされた保護機能であり、自然言語ルール(すなわち、憲法)でLLMsをプロンプトして生成された許可されたおよび制限されたコンテンツを指定します。推定3,000時間以上のレッドチーム活動において、レッドチーマーは、初期の分類器で保護されたLLMから情報を抽出する普遍的なジェイルブレイクを見つけることができず、ほとんどのターゲットクエリにおいて、無防備なモデルと同様の詳細レベルでの情報抽出はできませんでした。自動評価では、強化された分類器は、保留中の特定ドメインのジェイルブレイクに対して堅牢な防御を示しました。これらの分類器は、展開の実行可能性を維持し、本番トラフィックの拒否率が絶対値0.38%増加し、推論オーバーヘッドが23.7%増加します。私たちの研究は、実用的な展開の実行可能性を維持しながら普遍的なジェイルブレイクに対抗することが可能であることを示しています。
English
Large language models (LLMs) are vulnerable to universal jailbreaks-prompting
strategies that systematically bypass model safeguards and enable users to
carry out harmful processes that require many model interactions, like
manufacturing illegal substances at scale. To defend against these attacks, we
introduce Constitutional Classifiers: safeguards trained on synthetic data,
generated by prompting LLMs with natural language rules (i.e., a constitution)
specifying permitted and restricted content. In over 3,000 estimated hours of
red teaming, no red teamer found a universal jailbreak that could extract
information from an early classifier-guarded LLM at a similar level of detail
to an unguarded model across most target queries. On automated evaluations,
enhanced classifiers demonstrated robust defense against held-out
domain-specific jailbreaks. These classifiers also maintain deployment
viability, with an absolute 0.38% increase in production-traffic refusals and a
23.7% inference overhead. Our work demonstrates that defending against
universal jailbreaks while maintaining practical deployment viability is
tractable.Summary
AI-Generated Summary