Hallucinaties Ondermijnen Vertrouwen; Metacognitie Biedt een Uitweg

Samenvatting

Ondanks aanzienlijke vooruitgang in feitelijke betrouwbaarheid, blijven fouten – vaak aangeduid als hallucinaties – een groot probleem vormen voor generatieve AI, vooral nu van grote taalmodellen (LLM's) in toenemende mate wordt verwacht dat ze behulpzaam zijn in complexere of genuanceerdere situaties. Maar zelfs in de eenvoudigste setting – het beantwoorden van feitelijke vragen met een duidelijke grondwaarheid – blijven toonaangevende modellen zonder externe hulpmiddelen hallucineren. Wij stellen dat de meeste verbeteringen in feitelijkheid op dit gebied zijn voortgekomen uit het verleggen van de kennisgrenzen van het model (het coderen van meer feiten) in plaats van uit het verbeteren van het bewustzijn van die grenzen (het onderscheiden van bekende van onbekende informatie). Onze veronderstelling is dat dit laatste inherent moeilijk is: modellen hebben mogelijk niet het onderscheidend vermogen om waarheden perfect van fouten te scheiden, wat een onvermijdelijke wisselwerking creëert tussen het elimineren van hallucinaties en het behouden van functionaliteit. Deze wisselwerking verdwijnt bij een andere benadering. Als we hallucinaties opvatten als zelfverzekerde fouten – incorrecte informatie die zonder de juiste kwalificatie wordt gepresenteerd – dan duikt er een derde weg op, voorbij de dichotomie van antwoorden of afzien: het uiten van onzekerheid. Wij stellen *getrouwe onzekerheid* voor: het afstemmen van linguïstische onzekerheid op intrinsieke onzekerheid. Dit is een facet van metacognitie – het vermogen om zich bewust te zijn van de eigen onzekerheid en ernaar te handelen. Voor directe interactie betekent handelen naar onzekerheid dat men deze eerlijk communiceert; voor agent-systemen wordt het de controlelaag die bepaalt wanneer er gezocht moet worden en wat vertrouwd kan worden. Metacognitie is daarom essentieel om LLM's zowel betrouwbaar als capabel te maken; wij sluiten af door belangrijke openstaande problemen te belichten die moeten worden opgelost om dit doel te bereiken.

English

Despite significant strides in factual reliability, errors -- often termed hallucinations -- remain a major concern for generative AI, especially as LLMs are increasingly expected to be helpful in more complex or nuanced setups. Yet even in the simplest setting -- factoid question-answering with clear ground truth-frontier models without external tools continue to hallucinate. We argue that most factuality gains in this domain have come from expanding the model's knowledge boundary (encoding more facts) rather than improving awareness of that boundary (distinguishing known from unknown). We conjecture that the latter is inherently difficult: models may lack the discriminative power to perfectly separate truths from errors, creating an unavoidable tradeoff between eliminating hallucinations and preserving utility. This tradeoff dissolves under a different framing. If we understand hallucinations as confident errors -- incorrect information delivered without appropriate qualification -- a third path emerges beyond the answer-or-abstain dichotomy: expressing uncertainty. We propose faithful uncertainty: aligning linguistic uncertainty with intrinsic uncertainty. This is one facet of metacognition -- the ability to be aware of one's own uncertainty and to act on it. For direct interaction, acting on uncertainty means communicating it honestly; for agentic systems, it becomes the control layer governing when to search and what to trust. Metacognition is thus essential for LLMs to be both trustworthy and capable; we conclude by highlighting open problems for progress towards this objective.

Hallucinaties Ondermijnen Vertrouwen; Metacognitie Biedt een Uitweg

Hallucinations Undermine Trust; Metacognition is a Way Forward

Samenvatting

Support