Warum Sprachmodelle halluzinieren
Why Language Models Hallucinate
September 4, 2025
papers.authors: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang
cs.AI
papers.abstract
Wie Studierende, die schwierige Prüfungsfragen bewältigen müssen, raten große Sprachmodelle manchmal, wenn sie unsicher sind, und produzieren plausible, aber falsche Aussagen, anstatt Unsicherheit zuzugeben. Solche „Halluzinationen“ bestehen selbst in modernsten Systemen fort und untergraben das Vertrauen. Wir argumentieren, dass Sprachmodelle halluzinieren, weil die Trainings- und Evaluierungsverfahren das Raten gegenüber dem Eingeständnis von Unsicherheit belohnen, und wir analysieren die statistischen Ursachen von Halluzinationen im modernen Trainingsprozess. Halluzinationen müssen nicht mysteriös sein – sie entstehen einfach als Fehler in der binären Klassifikation. Wenn falsche Aussagen nicht von Fakten unterschieden werden können, entstehen Halluzinationen in vortrainierten Sprachmodellen durch natürlichen statistischen Druck. Wir argumentieren weiter, dass Halluzinationen aufgrund der Art und Weise fortbestehen, wie die meisten Bewertungen durchgeführt werden – Sprachmodelle werden darauf optimiert, gute Prüfungsteilnehmer zu sein, und das Raten bei Unsicherheit verbessert die Testleistung. Diese „Epidemie“ der Bestrafung unsicherer Antworten kann nur durch eine sozio-technische Minderungsmaßnahme angegangen werden: durch die Anpassung der Bewertung bestehender Benchmarks, die fehlausgerichtet sind, aber die Ranglisten dominieren, anstatt zusätzliche Halluzinationsbewertungen einzuführen. Diese Änderung könnte das Feld in Richtung vertrauenswürdigerer KI-Systeme lenken.
English
Like students facing hard exam questions, large language models sometimes
guess when uncertain, producing plausible yet incorrect statements instead of
admitting uncertainty. Such "hallucinations" persist even in state-of-the-art
systems and undermine trust. We argue that language models hallucinate because
the training and evaluation procedures reward guessing over acknowledging
uncertainty, and we analyze the statistical causes of hallucinations in the
modern training pipeline. Hallucinations need not be mysterious -- they
originate simply as errors in binary classification. If incorrect statements
cannot be distinguished from facts, then hallucinations in pretrained language
models will arise through natural statistical pressures. We then argue that
hallucinations persist due to the way most evaluations are graded -- language
models are optimized to be good test-takers, and guessing when uncertain
improves test performance. This "epidemic" of penalizing uncertain responses
can only be addressed through a socio-technical mitigation: modifying the
scoring of existing benchmarks that are misaligned but dominate leaderboards,
rather than introducing additional hallucination evaluations. This change may
steer the field toward more trustworthy AI systems.