Grote Taalmodellen Weten NIET Echt Wat Ze Niet Weten

Samenvatting

Recent onderzoek suggereert dat grote taalmodellen (LLMs) signalen van feitelijkheid coderen in hun interne representaties, zoals verborgen toestanden, aandachtswaarden of tokenwaarschijnlijkheden, wat impliceert dat LLMs mogelijk "weten wat ze niet weten". Echter, LLMs kunnen ook feitelijke fouten produceren door te vertrouwen op shortcuts of valse associaties. Deze fouten worden veroorzaakt door hetzelfde trainingsdoel dat correcte voorspellingen aanmoedigt, wat de vraag oproept of interne berekeningen betrouwbaar onderscheid kunnen maken tussen feitelijke en hallucinerende uitvoer. In dit werk voeren we een mechanistische analyse uit van hoe LLMs intern feitelijke vragen verwerken door twee soorten hallucinaties te vergelijken op basis van hun afhankelijkheid van onderwerpinformatie. We ontdekken dat wanneer hallucinaties geassocieerd zijn met onderwerpkennis, LLMs hetzelfde interne recallproces gebruiken als voor correcte antwoorden, wat leidt tot overlappende en ononderscheidbare geometrieën van verborgen toestanden. In tegenstelling hiermee produceren hallucinaties die losstaan van onderwerpkennis duidelijke, gegroepeerde representaties die ze detecteerbaar maken. Deze bevindingen onthullen een fundamentele beperking: LLMs coderen geen waarheidsgetrouwheid in hun interne toestanden, maar alleen patronen van kennisrecall, wat aantoont dat "LLMs niet echt weten wat ze niet weten".

English

Recent work suggests that large language models (LLMs) encode factuality signals in their internal representations, such as hidden states, attention weights, or token probabilities, implying that LLMs may "know what they don't know". However, LLMs can also produce factual errors by relying on shortcuts or spurious associations. These error are driven by the same training objective that encourage correct predictions, raising the question of whether internal computations can reliably distinguish between factual and hallucinated outputs. In this work, we conduct a mechanistic analysis of how LLMs internally process factual queries by comparing two types of hallucinations based on their reliance on subject information. We find that when hallucinations are associated with subject knowledge, LLMs employ the same internal recall process as for correct responses, leading to overlapping and indistinguishable hidden-state geometries. In contrast, hallucinations detached from subject knowledge produce distinct, clustered representations that make them detectable. These findings reveal a fundamental limitation: LLMs do not encode truthfulness in their internal states but only patterns of knowledge recall, demonstrating that "LLMs don't really know what they don't know".

Grote Taalmodellen Weten NIET Echt Wat Ze Niet Weten

Large Language Models Do NOT Really Know What They Don't Know

Samenvatting

Support