大規模言語モデルは、自分が知らないことを本当には理解していない
Large Language Models Do NOT Really Know What They Don't Know
October 10, 2025
著者: Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng
cs.AI
要旨
最近の研究によると、大規模言語モデル(LLMs)は、隠れ状態、アテンション重み、トークン確率などの内部表現に事実性の信号を符号化しており、LLMsが「自分が知らないことを知っている」可能性が示唆されています。しかし、LLMsは、ショートカットや誤った関連性に依存することで事実誤認を生み出すこともあります。これらの誤りは、正しい予測を促すのと同じ訓練目的によって引き起こされており、内部計算が事実と虚構の出力を確実に区別できるかどうかという疑問を提起しています。本研究では、LLMsが事実に関するクエリを内部でどのように処理するかを、主題情報への依存性に基づいて2種類の虚構を比較することで機構論的に分析します。その結果、主題知識に関連する虚構が生じた場合、LLMsは正しい応答と同じ内部想起プロセスを採用し、隠れ状態の幾何学的構造が重複して区別不能になることがわかりました。一方、主題知識から切り離された虚構は、明確でクラスター化された表現を生成し、検出可能になります。これらの発見は、LLMsが内部状態に真実性を符号化するのではなく、知識想起のパターンのみを符号化しているという根本的な限界を明らかにし、「LLMsは本当に自分が知らないことを知らない」ことを示しています。
English
Recent work suggests that large language models (LLMs) encode factuality
signals in their internal representations, such as hidden states, attention
weights, or token probabilities, implying that LLMs may "know what they don't
know". However, LLMs can also produce factual errors by relying on shortcuts or
spurious associations. These error are driven by the same training objective
that encourage correct predictions, raising the question of whether internal
computations can reliably distinguish between factual and hallucinated outputs.
In this work, we conduct a mechanistic analysis of how LLMs internally process
factual queries by comparing two types of hallucinations based on their
reliance on subject information. We find that when hallucinations are
associated with subject knowledge, LLMs employ the same internal recall process
as for correct responses, leading to overlapping and indistinguishable
hidden-state geometries. In contrast, hallucinations detached from subject
knowledge produce distinct, clustered representations that make them
detectable. These findings reveal a fundamental limitation: LLMs do not encode
truthfulness in their internal states but only patterns of knowledge recall,
demonstrating that "LLMs don't really know what they don't know".