言語モデルからの秘匿知識の抽出
Eliciting Secret Knowledge from Language Models
October 1, 2025
著者: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks
cs.AI
要旨
我々は、AIが持つが明示的に言語化しない知識を発見する「秘密の引き出し」を研究する。テストベッドとして、3つのファミリーの大規模言語モデル(LLM)を訓練し、下流タスクで適用する特定の知識を持たせながら、直接問われた際にはその知識を否定するように設定した。例えば、ある設定では、ユーザーが女性であることを知っているかのように返信を生成するが、直接問われた際にはその知識を否定するLLMを訓練した。次に、様々なブラックボックスおよびホワイトボックスの秘密引き出し技術を設計し、それらがLLM監査者が秘密の知識を成功裏に推測するのに役立つかどうかを評価した。多くの技術が単純なベースラインを上回った。最も効果的な技術(3つの設定のうち2つで最高の性能を示した)は、事前入力攻撃に基づくブラックボックス技術であり、LLMが事前に定義された接頭辞から補完を生成する際に秘密の知識を明らかにするものである。残りの設定では、ロジットレンズとスパースオートエンコーダー(SAE)に基づくホワイトボックス技術が最も効果的であった。我々はモデルとコードを公開し、秘密引き出し手法を評価するための公開ベンチマークを確立した。
English
We study secret elicitation: discovering knowledge that an AI possesses but
does not explicitly verbalize. As a testbed, we train three families of large
language models (LLMs) to possess specific knowledge that they apply downstream
but deny knowing when asked directly. For example, in one setting, we train an
LLM to generate replies that are consistent with knowing the user is female,
while denying this knowledge when asked directly. We then design various
black-box and white-box secret elicitation techniques and evaluate them based
on whether they can help an LLM auditor successfully guess the secret
knowledge. Many of our techniques improve on simple baselines. Our most
effective techniques (performing best in 2/3 settings) are based on prefill
attacks, a black-box technique where the LLM reveals secret knowledge when
generating a completion from a predefined prefix. In our remaining setting,
white-box techniques based on logit lens and sparse autoencoders (SAEs) are
most effective. We release our models and code, establishing a public benchmark
for evaluating secret elicitation methods.