Grote Taalmodellen Weten NIET Echt Wat Ze Niet Weten
Large Language Models Do NOT Really Know What They Don't Know
October 10, 2025
Auteurs: Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng
cs.AI
Samenvatting
Recent onderzoek suggereert dat grote taalmodellen (LLMs) signalen van feitelijkheid coderen in hun interne representaties, zoals verborgen toestanden, aandachtswaarden of tokenwaarschijnlijkheden, wat impliceert dat LLMs mogelijk "weten wat ze niet weten". Echter, LLMs kunnen ook feitelijke fouten produceren door te vertrouwen op shortcuts of valse associaties. Deze fouten worden veroorzaakt door hetzelfde trainingsdoel dat correcte voorspellingen aanmoedigt, wat de vraag oproept of interne berekeningen betrouwbaar onderscheid kunnen maken tussen feitelijke en hallucinerende uitvoer. In dit werk voeren we een mechanistische analyse uit van hoe LLMs intern feitelijke vragen verwerken door twee soorten hallucinaties te vergelijken op basis van hun afhankelijkheid van onderwerpinformatie. We ontdekken dat wanneer hallucinaties geassocieerd zijn met onderwerpkennis, LLMs hetzelfde interne recallproces gebruiken als voor correcte antwoorden, wat leidt tot overlappende en ononderscheidbare geometrieën van verborgen toestanden. In tegenstelling hiermee produceren hallucinaties die losstaan van onderwerpkennis duidelijke, gegroepeerde representaties die ze detecteerbaar maken. Deze bevindingen onthullen een fundamentele beperking: LLMs coderen geen waarheidsgetrouwheid in hun interne toestanden, maar alleen patronen van kennisrecall, wat aantoont dat "LLMs niet echt weten wat ze niet weten".
English
Recent work suggests that large language models (LLMs) encode factuality
signals in their internal representations, such as hidden states, attention
weights, or token probabilities, implying that LLMs may "know what they don't
know". However, LLMs can also produce factual errors by relying on shortcuts or
spurious associations. These error are driven by the same training objective
that encourage correct predictions, raising the question of whether internal
computations can reliably distinguish between factual and hallucinated outputs.
In this work, we conduct a mechanistic analysis of how LLMs internally process
factual queries by comparing two types of hallucinations based on their
reliance on subject information. We find that when hallucinations are
associated with subject knowledge, LLMs employ the same internal recall process
as for correct responses, leading to overlapping and indistinguishable
hidden-state geometries. In contrast, hallucinations detached from subject
knowledge produce distinct, clustered representations that make them
detectable. These findings reveal a fundamental limitation: LLMs do not encode
truthfulness in their internal states but only patterns of knowledge recall,
demonstrating that "LLMs don't really know what they don't know".