Jailbroken: LLMの安全性トレーニングはなぜ失敗するのか?
Jailbroken: How Does LLM Safety Training Fail?
July 5, 2023
著者: Alexander Wei, Nika Haghtalab, Jacob Steinhardt
cs.AI
要旨
安全性と無害性を目的に訓練された大規模言語モデルは、依然として敵対的な悪用に対して脆弱である。これは、初期リリースのChatGPTに対する「ジェイルブレイク」攻撃の蔓延と、それによって引き起こされる望ましくない振る舞いがその証拠となっている。本論文では、この問題を認識するだけでなく、なぜそのような攻撃が成功するのか、そしてそれらがどのように作成されるのかを調査する。我々は、安全性訓練における2つの失敗モードを仮説として提示する:競合する目的と不一致な汎化である。競合する目的は、モデルの能力と安全性の目標が衝突するときに生じ、不一致な汎化は、安全性訓練が能力が存在する領域に汎化しないときに発生する。これらの失敗モードをガイドとしてジェイルブレイクの設計を行い、その後、OpenAIのGPT-4やAnthropicのClaude v1.3などの最先端モデルを、既存の攻撃と新たに設計した攻撃に対して評価する。その結果、これらのモデルが背後に持つ広範なレッドチーミングと安全性訓練の努力にもかかわらず、脆弱性が残存していることが明らかとなった。特に、我々の失敗モードを利用した新しい攻撃は、モデルのレッドチーミング評価セットからの安全でないリクエストのコレクションにおいて、すべてのプロンプトで成功し、既存のアドホックなジェイルブレイクを上回る性能を示した。我々の分析は、安全性と能力のパリティ(安全性メカニズムが基盤となるモデルと同程度に洗練されているべきこと)の必要性を強調し、スケーリングだけでこれらの安全性の失敗モードを解決できるという考えに反論するものである。
English
Large language models trained for safety and harmlessness remain susceptible
to adversarial misuse, as evidenced by the prevalence of "jailbreak" attacks on
early releases of ChatGPT that elicit undesired behavior. Going beyond
recognition of the issue, we investigate why such attacks succeed and how they
can be created. We hypothesize two failure modes of safety training: competing
objectives and mismatched generalization. Competing objectives arise when a
model's capabilities and safety goals conflict, while mismatched generalization
occurs when safety training fails to generalize to a domain for which
capabilities exist. We use these failure modes to guide jailbreak design and
then evaluate state-of-the-art models, including OpenAI's GPT-4 and Anthropic's
Claude v1.3, against both existing and newly designed attacks. We find that
vulnerabilities persist despite the extensive red-teaming and safety-training
efforts behind these models. Notably, new attacks utilizing our failure modes
succeed on every prompt in a collection of unsafe requests from the models'
red-teaming evaluation sets and outperform existing ad hoc jailbreaks. Our
analysis emphasizes the need for safety-capability parity -- that safety
mechanisms should be as sophisticated as the underlying model -- and argues
against the idea that scaling alone can resolve these safety failure modes.