ChatPaper.aiChatPaper

大規模言語モデルにおける真理の表現的安定性

Representational Stability of Truth in Large Language Models

November 24, 2025
著者: Samantha Dies, Courtney Maynard, Germans Savcisens, Tina Eliassi-Rad
cs.AI

要旨

大規模言語モデル(LLM)は、「喘息の治療法は何か」や「ラトビアの首都はどこか」といった事実確認タスクに広く利用されている。しかし、LLMが内部の確率的表現において、真・偽・真偽不明の内容をどの程度安定的に区別して符号化しているかは明らかでない。本研究では、真理の操作的定義に対する摂動に対し、LLMの真偽表現がどの程度頑健であるかを「表現的安定性」として定義する。表現的安定性の評価には、(i)真の陳述と真でない陳述を分離するため、LLMの活性化に基づいて線形プローブを訓練し、(ii)制御されたラベル変更下で学習された決定境界がどの程度変動するかを測定する手法を採用する。16のオープンソースモデルと3つの事実領域から得られた活性化を用いて、2種類の「真偽不明」陳述を比較する。第一は、学習データに存在しないと推定される実体に関する事実風の主張であり、これを「未知の真偽不明陳述」と呼ぶ。第二は、広く知られた虚構文脈から抽出された非事実的主張であり、これを「既知の真偽不明陳述」と呼ぶ。未知陳述は最大の境界変動を誘発し、脆弱な領域(語義定義など)では真偽判断の最大40%が反転したのに対し、既知の虚構陳述はより一貫したクラスタリングを維持し、変動幅も小幅(8.2%以下)に留まった。これらの結果は、表現的安定性が言語形式よりも認識論的親和性に由来することを示唆する。より広義には、本手法は意味論的不確実性下で一貫した真偽判定を保持するようLLMを監査・訓練するための診断枠組みを提供し、出力精度のみの最適化を超えた基盤整備に寄与する。
English
Large language models (LLMs) are widely used for factual tasks such as "What treats asthma?" or "What is the capital of Latvia?". However, it remains unclear how stably LLMs encode distinctions between true, false, and neither-true-nor-false content in their internal probabilistic representations. We introduce representational stability as the robustness of an LLM's veracity representations to perturbations in the operational definition of truth. We assess representational stability by (i) training a linear probe on an LLM's activations to separate true from not-true statements and (ii) measuring how its learned decision boundary shifts under controlled label changes. Using activations from sixteen open-source models and three factual domains, we compare two types of neither statements. The first are fact-like assertions about entities we believe to be absent from any training data. We call these unfamiliar neither statements. The second are nonfactual claims drawn from well-known fictional contexts. We call these familiar neither statements. The unfamiliar statements induce the largest boundary shifts, producing up to 40% flipped truth judgements in fragile domains (such as word definitions), while familiar fictional statements remain more coherently clustered and yield smaller changes (leq 8.2%). These results suggest that representational stability stems more from epistemic familiarity than from linguistic form. More broadly, our approach provides a diagnostic for auditing and training LLMs to preserve coherent truth assignments under semantic uncertainty, rather than optimizing for output accuracy alone.
PDF22February 7, 2026