検閲済み大規模言語モデルを秘匿知識抽出の自然な試験場として
Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
March 5, 2026
著者: Helena Casademunt, Bartosz Cywiński, Khoi Tran, Arya Jakkli, Samuel Marks, Neel Nanda
cs.AI
要旨
大規模言語モデルは、時に虚偽または誤解を招く応答を生成することがある。この問題に対する2つのアプローチとして、誠実性誘導(プロンプトや重みを修正してモデルが真実を答えるようにする)と虚偽検出(特定の応答が虚偽かどうかを分類する)が存在する。従来の研究では、嘘をつくよう特別に訓練されたモデルや情報を隠蔽するよう訓練されたモデルに対してこれらの手法を評価してきたが、こうした人為的な構築物は自然発生する不誠実性とは異なる可能性がある。我々は代わりに、中国の開発者によるオープンウェイトのLLMを研究対象とする。これらのモデルは政治的敏感なトピックを検閲するよう訓練されており、Qwen3モデルは法輪功や天安門抗議などの主題について頻繁に虚偽を生成する一方、時折正しく回答することから、抑制するよう訓練された知識を保持していることが示唆される。これをテストベッドとして、一連の誘導技術と虚偽検出技術を評価する。誠実性誘導については、チャットテンプレートなしのサンプリング、数ショットプロンプト、一般的な誠実性データへのファインチューニングが、真実の応答を最も確実に増加させた。虚偽検出については、検閲済みモデルに自身の応答を分類させるプロンプトが非検閲モデルの上限値に近い性能を示し、無関係なデータで訓練された線形プローブがより低コストな代替手段となった。最も強力な誠実性誘導技術は、DeepSeek R1を含む最先端のオープンウェイトモデルにも転移可能であった。特筆すべきは、いずれの技術も虚偽の応答を完全には排除できない点である。我々は全てのプロンプト、コード、会話記録を公開する。
English
Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.