대형 언어 모델은 자신이 모르는 것을 진정으로 알지 못한다
Large Language Models Do NOT Really Know What They Don't Know
October 10, 2025
저자: Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng
cs.AI
초록
최근 연구에 따르면, 대규모 언어 모델(LLM)은 은닉 상태(hidden states), 어텐션 가중치(attention weights), 토큰 확률(token probabilities)과 같은 내부 표현에 사실성 신호를 인코딩하고 있으며, 이는 LLM이 "자신이 모르는 것을 알고 있을" 가능성을 시사합니다. 그러나 LLM은 단축 경로(shortcuts)나 허위 연관(spurious associations)에 의존하여 사실 오류를 생성할 수도 있습니다. 이러한 오류는 정확한 예측을 장려하는 동일한 훈련 목표에 의해 발생하며, 내부 계산이 사실과 환각(hallucinated) 출력을 신뢰할 수 있게 구별할 수 있는지에 대한 의문을 제기합니다. 본 연구에서는 주제 정보에 대한 의존도를 기반으로 두 가지 유형의 환각을 비교하여 LLM이 사실적 질의를 내부적으로 어떻게 처리하는지에 대한 기계적 분석을 수행합니다. 우리는 환각이 주제 지식과 연관될 때, LLM이 정답과 동일한 내부 회상 과정을 사용하여 겹치고 구별할 수 없는 은닉 상태 기하학을 생성한다는 것을 발견했습니다. 반면, 주제 지식과 분리된 환각은 구별 가능한 군집화된 표현을 생성하여 이를 탐지할 수 있게 합니다. 이러한 발견은 근본적인 한계를 드러냅니다: LLM은 내부 상태에 진실성을 인코딩하지 않고 단지 지식 회상의 패턴만을 인코딩하며, 이는 "LLM이 자신이 모르는 것을 진정으로 알지 못한다"는 것을 보여줍니다.
English
Recent work suggests that large language models (LLMs) encode factuality
signals in their internal representations, such as hidden states, attention
weights, or token probabilities, implying that LLMs may "know what they don't
know". However, LLMs can also produce factual errors by relying on shortcuts or
spurious associations. These error are driven by the same training objective
that encourage correct predictions, raising the question of whether internal
computations can reliably distinguish between factual and hallucinated outputs.
In this work, we conduct a mechanistic analysis of how LLMs internally process
factual queries by comparing two types of hallucinations based on their
reliance on subject information. We find that when hallucinations are
associated with subject knowledge, LLMs employ the same internal recall process
as for correct responses, leading to overlapping and indistinguishable
hidden-state geometries. In contrast, hallucinations detached from subject
knowledge produce distinct, clustered representations that make them
detectable. These findings reveal a fundamental limitation: LLMs do not encode
truthfulness in their internal states but only patterns of knowledge recall,
demonstrating that "LLMs don't really know what they don't know".