Pourquoi les modèles de langage hallucinent
Why Language Models Hallucinate
September 4, 2025
papers.authors: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang
cs.AI
papers.abstract
Comme les étudiants confrontés à des questions d'examen difficiles, les grands modèles de langage devinent parfois lorsqu'ils sont incertains, produisant des affirmations plausibles mais incorrectes plutôt que d'admettre leur incertitude. De telles "hallucinations" persistent même dans les systèmes les plus avancés et sapent la confiance. Nous soutenons que les modèles de langage hallucinent parce que les procédures d'entraînement et d'évaluation récompensent le fait de deviner plutôt que de reconnaître l'incertitude, et nous analysons les causes statistiques des hallucinations dans le pipeline d'entraînement moderne. Les hallucinations ne doivent pas être mystérieuses — elles découlent simplement d'erreurs dans la classification binaire. Si les affirmations incorrectes ne peuvent pas être distinguées des faits, alors les hallucinations dans les modèles de langage pré-entraînés émergeront sous l'effet de pressions statistiques naturelles. Nous argumentons ensuite que les hallucinations persistent en raison de la manière dont la plupart des évaluations sont notées — les modèles de langage sont optimisés pour être de bons candidats aux tests, et deviner en cas d'incertitude améliore les performances aux tests. Cette "épidémie" de pénalisation des réponses incertaines ne peut être résolue que par une atténuation socio-technique : modifier la notation des benchmarks existants qui sont mal alignés mais dominent les classements, plutôt que d'introduire des évaluations supplémentaires des hallucinations. Ce changement pourrait orienter le domaine vers des systèmes d'IA plus dignes de confiance.
English
Like students facing hard exam questions, large language models sometimes
guess when uncertain, producing plausible yet incorrect statements instead of
admitting uncertainty. Such "hallucinations" persist even in state-of-the-art
systems and undermine trust. We argue that language models hallucinate because
the training and evaluation procedures reward guessing over acknowledging
uncertainty, and we analyze the statistical causes of hallucinations in the
modern training pipeline. Hallucinations need not be mysterious -- they
originate simply as errors in binary classification. If incorrect statements
cannot be distinguished from facts, then hallucinations in pretrained language
models will arise through natural statistical pressures. We then argue that
hallucinations persist due to the way most evaluations are graded -- language
models are optimized to be good test-takers, and guessing when uncertain
improves test performance. This "epidemic" of penalizing uncertain responses
can only be addressed through a socio-technical mitigation: modifying the
scoring of existing benchmarks that are misaligned but dominate leaderboards,
rather than introducing additional hallucination evaluations. This change may
steer the field toward more trustworthy AI systems.