Крупные языковые модели НЕ ДЕЙСТВИТЕЛЬНО знают, чего они не знают.
Large Language Models Do NOT Really Know What They Don't Know
October 10, 2025
Авторы: Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng
cs.AI
Аннотация
Последние исследования показывают, что крупные языковые модели (LLM) кодируют сигналы фактической достоверности в своих внутренних представлениях, таких как скрытые состояния, веса внимания или вероятности токенов, что предполагает, что LLM могут "знать, чего они не знают". Однако LLM также могут допускать фактические ошибки, полагаясь на упрощенные пути или ложные ассоциации. Эти ошибки обусловлены той же целью обучения, которая стимулирует правильные предсказания, что ставит вопрос о том, могут ли внутренние вычисления надежно различать фактические и галлюцинированные выходные данные. В данной работе мы проводим механистический анализ того, как LLM внутренне обрабатывают фактические запросы, сравнивая два типа галлюцинаций на основе их зависимости от информации о субъекте. Мы обнаруживаем, что когда галлюцинации связаны со знанием о субъекте, LLM используют тот же внутренний процесс извлечения, что и для правильных ответов, что приводит к перекрывающимся и неразличимым геометриям скрытых состояний. В отличие от этого, галлюцинации, оторванные от знания о субъекте, создают отдельные, кластеризованные представления, что делает их обнаруживаемыми. Эти результаты выявляют фундаментальное ограничение: LLM не кодируют истинность в своих внутренних состояниях, а лишь паттерны извлечения знаний, демонстрируя, что "LLM на самом деле не знают, чего они не знают".
English
Recent work suggests that large language models (LLMs) encode factuality
signals in their internal representations, such as hidden states, attention
weights, or token probabilities, implying that LLMs may "know what they don't
know". However, LLMs can also produce factual errors by relying on shortcuts or
spurious associations. These error are driven by the same training objective
that encourage correct predictions, raising the question of whether internal
computations can reliably distinguish between factual and hallucinated outputs.
In this work, we conduct a mechanistic analysis of how LLMs internally process
factual queries by comparing two types of hallucinations based on their
reliance on subject information. We find that when hallucinations are
associated with subject knowledge, LLMs employ the same internal recall process
as for correct responses, leading to overlapping and indistinguishable
hidden-state geometries. In contrast, hallucinations detached from subject
knowledge produce distinct, clustered representations that make them
detectable. These findings reveal a fundamental limitation: LLMs do not encode
truthfulness in their internal states but only patterns of knowledge recall,
demonstrating that "LLMs don't really know what they don't know".