Waarom Taalmodellen Hallucineren

Samenvatting

Net als studenten die moeilijke examen vragen krijgen, gokken grote taalmodellen soms wanneer ze onzeker zijn, waarbij ze plausibele maar incorrecte uitspraken produceren in plaats van onzekerheid toe te geven. Dergelijke "hallucinaties" blijven bestaan, zelfs in state-of-the-art systemen, en ondermijnen het vertrouwen. Wij stellen dat taalmodellen hallucineren omdat de trainings- en evaluatieprocedures gokken belonen boven het erkennen van onzekerheid, en we analyseren de statistische oorzaken van hallucinaties in de moderne trainingspijplijn. Hallucinaties hoeven niet mysterieus te zijn — ze ontstaan eenvoudigweg als fouten in binaire classificatie. Als incorrecte uitspraken niet kunnen worden onderscheiden van feiten, dan zullen hallucinaties in vooraf getrainde taalmodellen ontstaan door natuurlijke statistische druk. Vervolgens stellen we dat hallucinaties blijven bestaan vanwege de manier waarop de meeste evaluaties worden beoordeeld — taalmodellen zijn geoptimaliseerd om goede testmakers te zijn, en gokken bij onzekerheid verbetert de testprestaties. Deze "epidemie" van het bestraffen van onzekere antwoorden kan alleen worden aangepakt door een sociaal-technische mitigatie: het aanpassen van de scoring van bestaande benchmarks die verkeerd zijn uitgelijnd maar toch de leiderborden domineren, in plaats van aanvullende hallucinatie-evaluaties te introduceren. Deze verandering kan het veld sturen naar meer betrouwbare AI-systemen.

English

Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.

Waarom Taalmodellen Hallucineren

Why Language Models Hallucinate

Samenvatting

Support