Grandes Modelos de Linguagem NÃO Sabem Realmente o Que Não Sabem
Large Language Models Do NOT Really Know What They Don't Know
October 10, 2025
Autores: Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng
cs.AI
Resumo
Trabalhos recentes sugerem que modelos de linguagem de grande escala (LLMs) codificam sinais de factualidade em suas representações internas, como estados ocultos, pesos de atenção ou probabilidades de tokens, implicando que os LLMs podem "saber o que não sabem". No entanto, os LLMs também podem produzir erros factuais ao depender de atalhos ou associações espúrias. Esses erros são impulsionados pelo mesmo objetivo de treinamento que incentiva previsões corretas, levantando a questão de se os cálculos internos podem distinguir de forma confiável entre saídas factuais e alucinadas. Neste trabalho, realizamos uma análise mecanicista de como os LLMs processam internamente consultas factuais, comparando dois tipos de alucinações com base em sua dependência de informações sobre o assunto. Descobrimos que, quando as alucinações estão associadas ao conhecimento do assunto, os LLMs empregam o mesmo processo de recuperação interna que para respostas corretas, resultando em geometrias de estados ocultos sobrepostas e indistinguíveis. Em contraste, alucinações desvinculadas do conhecimento do assunto produzem representações distintas e agrupadas que as tornam detectáveis. Essas descobertas revelam uma limitação fundamental: os LLMs não codificam a veracidade em seus estados internos, mas apenas padrões de recuperação de conhecimento, demonstrando que "os LLMs não sabem realmente o que não sabem".
English
Recent work suggests that large language models (LLMs) encode factuality
signals in their internal representations, such as hidden states, attention
weights, or token probabilities, implying that LLMs may "know what they don't
know". However, LLMs can also produce factual errors by relying on shortcuts or
spurious associations. These error are driven by the same training objective
that encourage correct predictions, raising the question of whether internal
computations can reliably distinguish between factual and hallucinated outputs.
In this work, we conduct a mechanistic analysis of how LLMs internally process
factual queries by comparing two types of hallucinations based on their
reliance on subject information. We find that when hallucinations are
associated with subject knowledge, LLMs employ the same internal recall process
as for correct responses, leading to overlapping and indistinguishable
hidden-state geometries. In contrast, hallucinations detached from subject
knowledge produce distinct, clustered representations that make them
detectable. These findings reveal a fundamental limitation: LLMs do not encode
truthfulness in their internal states but only patterns of knowledge recall,
demonstrating that "LLMs don't really know what they don't know".