Warum Sprachmodelle halluzinieren

papers.abstract

Wie Studierende, die schwierige Prüfungsfragen bewältigen müssen, raten große Sprachmodelle manchmal, wenn sie unsicher sind, und produzieren plausible, aber falsche Aussagen, anstatt Unsicherheit zuzugeben. Solche „Halluzinationen“ bestehen selbst in modernsten Systemen fort und untergraben das Vertrauen. Wir argumentieren, dass Sprachmodelle halluzinieren, weil die Trainings- und Evaluierungsverfahren das Raten gegenüber dem Eingeständnis von Unsicherheit belohnen, und wir analysieren die statistischen Ursachen von Halluzinationen im modernen Trainingsprozess. Halluzinationen müssen nicht mysteriös sein – sie entstehen einfach als Fehler in der binären Klassifikation. Wenn falsche Aussagen nicht von Fakten unterschieden werden können, entstehen Halluzinationen in vortrainierten Sprachmodellen durch natürlichen statistischen Druck. Wir argumentieren weiter, dass Halluzinationen aufgrund der Art und Weise fortbestehen, wie die meisten Bewertungen durchgeführt werden – Sprachmodelle werden darauf optimiert, gute Prüfungsteilnehmer zu sein, und das Raten bei Unsicherheit verbessert die Testleistung. Diese „Epidemie“ der Bestrafung unsicherer Antworten kann nur durch eine sozio-technische Minderungsmaßnahme angegangen werden: durch die Anpassung der Bewertung bestehender Benchmarks, die fehlausgerichtet sind, aber die Ranglisten dominieren, anstatt zusätzliche Halluzinationsbewertungen einzuführen. Diese Änderung könnte das Feld in Richtung vertrauenswürdigerer KI-Systeme lenken.

English

Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.

Warum Sprachmodelle halluzinieren

Why Language Models Hallucinate

papers.abstract

Support