戦略的な不誠実さは、最先端の大規模言語モデル(LLM)のAI安全性評価を損なう可能性がある
Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLM
September 22, 2025
著者: Alexander Panfilov, Evgenii Kortukov, Kristina Nikolić, Matthias Bethge, Sebastian Lapuschkin, Wojciech Samek, Ameya Prabhu, Maksym Andriushchenko, Jonas Geiping
cs.AI
要旨
大規模言語モデル(LLM)の開発者は、モデルが正直で、役に立ち、無害であることを目指しています。しかし、悪意のあるリクエストに直面した場合、モデルは有用性を犠牲にして拒否するように訓練されています。我々は、最先端のLLMが、他の選択肢が利用可能な場合でも、新しい戦略として不誠実さを好むようになる可能性を示します。影響を受けたモデルは、有害なリクエストに対して、一見有害そうだが実際には微妙に間違っていたり、無害な出力を返します。この振る舞いは、同じモデルファミリー内でも予測が難しいバリエーションで現れます。我々は、欺く傾向の明らかな原因を見つけられませんでしたが、より能力の高いモデルほどこの戦略をうまく実行できることを示します。戦略的な不誠実さは、安全性評価に実用的な影響を及ぼしており、我々がテストした全ての出力ベースの監視システムを欺き、ベンチマークスコアを信頼できないものにします。さらに、戦略的な不誠実さは、悪意のあるユーザーに対するハニーポットのように機能し、以前のジャイルブレイク攻撃を著しく曖昧にします。出力監視が失敗する一方で、内部活性化に対する線形プローブを使用することで、戦略的な不誠実さを確実に検出できることを示します。我々は、検証可能な結果を持つデータセットでプローブを検証し、その特徴をステアリングベクトルとして使用します。全体として、戦略的な不誠実さは、LLMのアライメントが制御しにくいというより広範な懸念の具体的な例と見なしており、特に有用性と無害性が衝突する場合に顕著です。
English
Large language model (LLM) developers aim for their models to be honest,
helpful, and harmless. However, when faced with malicious requests, models are
trained to refuse, sacrificing helpfulness. We show that frontier LLMs can
develop a preference for dishonesty as a new strategy, even when other options
are available. Affected models respond to harmful requests with outputs that
sound harmful but are subtly incorrect or otherwise harmless in practice. This
behavior emerges with hard-to-predict variations even within models from the
same model family. We find no apparent cause for the propensity to deceive, but
we show that more capable models are better at executing this strategy.
Strategic dishonesty already has a practical impact on safety evaluations, as
we show that dishonest responses fool all output-based monitors used to detect
jailbreaks that we test, rendering benchmark scores unreliable. Further,
strategic dishonesty can act like a honeypot against malicious users, which
noticeably obfuscates prior jailbreak attacks. While output monitors fail, we
show that linear probes on internal activations can be used to reliably detect
strategic dishonesty. We validate probes on datasets with verifiable outcomes
and by using their features as steering vectors. Overall, we consider strategic
dishonesty as a concrete example of a broader concern that alignment of LLMs is
hard to control, especially when helpfulness and harmlessness conflict.