Waarom Taalmodellen Hallucineren
Why Language Models Hallucinate
September 4, 2025
Auteurs: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang
cs.AI
Samenvatting
Net als studenten die moeilijke examen vragen krijgen, gokken grote taalmodellen soms wanneer ze onzeker zijn, waarbij ze plausibele maar incorrecte uitspraken produceren in plaats van onzekerheid toe te geven. Dergelijke "hallucinaties" blijven bestaan, zelfs in state-of-the-art systemen, en ondermijnen het vertrouwen. Wij stellen dat taalmodellen hallucineren omdat de trainings- en evaluatieprocedures gokken belonen boven het erkennen van onzekerheid, en we analyseren de statistische oorzaken van hallucinaties in de moderne trainingspijplijn. Hallucinaties hoeven niet mysterieus te zijn — ze ontstaan eenvoudigweg als fouten in binaire classificatie. Als incorrecte uitspraken niet kunnen worden onderscheiden van feiten, dan zullen hallucinaties in vooraf getrainde taalmodellen ontstaan door natuurlijke statistische druk. Vervolgens stellen we dat hallucinaties blijven bestaan vanwege de manier waarop de meeste evaluaties worden beoordeeld — taalmodellen zijn geoptimaliseerd om goede testmakers te zijn, en gokken bij onzekerheid verbetert de testprestaties. Deze "epidemie" van het bestraffen van onzekere antwoorden kan alleen worden aangepakt door een sociaal-technische mitigatie: het aanpassen van de scoring van bestaande benchmarks die verkeerd zijn uitgelijnd maar toch de leiderborden domineren, in plaats van aanvullende hallucinatie-evaluaties te introduceren. Deze verandering kan het veld sturen naar meer betrouwbare AI-systemen.
English
Like students facing hard exam questions, large language models sometimes
guess when uncertain, producing plausible yet incorrect statements instead of
admitting uncertainty. Such "hallucinations" persist even in state-of-the-art
systems and undermine trust. We argue that language models hallucinate because
the training and evaluation procedures reward guessing over acknowledging
uncertainty, and we analyze the statistical causes of hallucinations in the
modern training pipeline. Hallucinations need not be mysterious -- they
originate simply as errors in binary classification. If incorrect statements
cannot be distinguished from facts, then hallucinations in pretrained language
models will arise through natural statistical pressures. We then argue that
hallucinations persist due to the way most evaluations are graded -- language
models are optimized to be good test-takers, and guessing when uncertain
improves test performance. This "epidemic" of penalizing uncertain responses
can only be addressed through a socio-technical mitigation: modifying the
scoring of existing benchmarks that are misaligned but dominate leaderboards,
rather than introducing additional hallucination evaluations. This change may
steer the field toward more trustworthy AI systems.