대규모 언어 모델에서 진리의 표현적 안정성
Representational Stability of Truth in Large Language Models
November 24, 2025
저자: Samantha Dies, Courtney Maynard, Germans Savcisens, Tina Eliassi-Rad
cs.AI
초록
대규모 언어 모델(LLM)은 "천식을 치료하는 방법은?" 또는 "라트비아의 수도는?"과 같은 사실 관련 작업에 널리 사용됩니다. 그러나 LLM이 내부 확률적 표현에서 참, 거짓, 참도 거짓도 아닌 내용 간의 구분을 얼마나 안정적으로 인코딩하는지는 여전히 불분명합니다. 본 연구는 진리의 운영적 정의에 대한 변화에 대응하는 LLM의 진위 표현 견고성을 '표상 안정성'으로 정의합니다. 우리는 표상 안정성을 (i) LLM의 활성화 값을 기반으로 참과 참이 아닌 문장을 구분하는 선형 탐색기를 훈련시키고, (ii) 통제된 라벨 변경 하에서 학습된 결정 경계가 어떻게 이동하는지를 측정하여 평가합니다. 16개의 오픈소스 모델과 세 가지 사실 영역에서의 활성화 값을 사용하여 두 유형의 중립 문장을 비교합니다. 첫 번째는 훈련 데이터에 존재하지 않는다고 판단되는 개체에 대한 사실적 주장입니다. 이를 '익숙하지 않은 중립 문장'이라고 부릅니다. 두 번째는 잘 알려진 허구적 맥락에서 추출한 비사실적 주장입니다. 이를 '익숙한 중립 문장'이라고 부릅니다. 익숙하지 않은 문장은 가장 큰 경계 이동을 유발하며, 취약한 영역(예: 단어 정의)에서 최대 40%의 진리 판단 반전을 생산하는 반면, 익숙한 허구 문장은 더 응집성 있게 군집을 이루며 더 작은 변화(8.2% 이하)를 보입니다. 이러한 결과는 표상 안정성이 언어적 형태보다 인식적 익숙함에서 비롯됨을 시사합니다. 더 넓게 보면, 우리의 접근법은 출력 정확도만을 최적화하기보다는 의미적 불확실성 하에서 일관된 진리 할당을 보존하도록 LLM을 감사하고 훈련시키기 위한 진단 도구를 제공합니다.
English
Large language models (LLMs) are widely used for factual tasks such as "What treats asthma?" or "What is the capital of Latvia?". However, it remains unclear how stably LLMs encode distinctions between true, false, and neither-true-nor-false content in their internal probabilistic representations. We introduce representational stability as the robustness of an LLM's veracity representations to perturbations in the operational definition of truth. We assess representational stability by (i) training a linear probe on an LLM's activations to separate true from not-true statements and (ii) measuring how its learned decision boundary shifts under controlled label changes. Using activations from sixteen open-source models and three factual domains, we compare two types of neither statements. The first are fact-like assertions about entities we believe to be absent from any training data. We call these unfamiliar neither statements. The second are nonfactual claims drawn from well-known fictional contexts. We call these familiar neither statements. The unfamiliar statements induce the largest boundary shifts, producing up to 40% flipped truth judgements in fragile domains (such as word definitions), while familiar fictional statements remain more coherently clustered and yield smaller changes (leq 8.2%). These results suggest that representational stability stems more from epistemic familiarity than from linguistic form. More broadly, our approach provides a diagnostic for auditing and training LLMs to preserve coherent truth assignments under semantic uncertainty, rather than optimizing for output accuracy alone.