ChatPaper.aiChatPaper

Pourquoi les modèles de langage hallucinent

Why Language Models Hallucinate

September 4, 2025
papers.authors: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang
cs.AI

papers.abstract

Comme les étudiants confrontés à des questions d'examen difficiles, les grands modèles de langage devinent parfois lorsqu'ils sont incertains, produisant des affirmations plausibles mais incorrectes plutôt que d'admettre leur incertitude. De telles "hallucinations" persistent même dans les systèmes les plus avancés et sapent la confiance. Nous soutenons que les modèles de langage hallucinent parce que les procédures d'entraînement et d'évaluation récompensent le fait de deviner plutôt que de reconnaître l'incertitude, et nous analysons les causes statistiques des hallucinations dans le pipeline d'entraînement moderne. Les hallucinations ne doivent pas être mystérieuses — elles découlent simplement d'erreurs dans la classification binaire. Si les affirmations incorrectes ne peuvent pas être distinguées des faits, alors les hallucinations dans les modèles de langage pré-entraînés émergeront sous l'effet de pressions statistiques naturelles. Nous argumentons ensuite que les hallucinations persistent en raison de la manière dont la plupart des évaluations sont notées — les modèles de langage sont optimisés pour être de bons candidats aux tests, et deviner en cas d'incertitude améliore les performances aux tests. Cette "épidémie" de pénalisation des réponses incertaines ne peut être résolue que par une atténuation socio-technique : modifier la notation des benchmarks existants qui sont mal alignés mais dominent les classements, plutôt que d'introduire des évaluations supplémentaires des hallucinations. Ce changement pourrait orienter le domaine vers des systèmes d'IA plus dignes de confiance.
English
Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.
PDF1548September 8, 2025