Les hallucinations sapent la confiance ; la métacognition ouvre une voie prometteuse.
Hallucinations Undermine Trust; Metacognition is a Way Forward
May 2, 2026
Auteurs: Gal Yona, Mor Geva, Yossi Matias
cs.AI
Résumé
Malgré des progrès significatifs en matière de fiabilité factuelle, les erreurs – souvent appelées hallucinations – restent une préoccupation majeure pour l'IA générative, d'autant plus que l'on attend des LLMs qu'ils soient utiles dans des contextes plus complexes ou nuancés. Pourtant, même dans le cadre le plus simple – la réponse à des questions factuelles avec une vérité terrain claire – les modèles de pointe, sans outils externes, continuent de produire des hallucinations. Nous soutenons que la plupart des gains en factualité dans ce domaine proviennent de l'élargissement de la frontière des connaissances du modèle (encoder plus de faits) plutôt que de l'amélioration de la conscience de cette frontière (distinguer le connu de l'inconnu). Nous conjecturons que cette dernière est intrinsèquement difficile : les modèles pourraient manquer de la puissance discriminative nécessaire pour séparer parfaitement les vérités des erreurs, créant un compromis inévitable entre l'élimination des hallucinations et la préservation de l'utilité.
Ce compromis disparaît sous un angle différent. Si nous comprenons les hallucinations comme des erreurs confiantes – des informations incorrectes livrées sans la qualification appropriée – une troisième voie émerge au-delà de la dichotomie répondre ou s'abstenir : exprimer l'incertitude. Nous proposons l'**incertitude fidèle** : aligner l'incertitude linguistique sur l'incertitude intrinsèque. Ceci est une facette de la métacognition – la capacité d'être conscient de sa propre incertitude et d'agir en conséquence. Pour l'interaction directe, agir sur l'incertitude signifie la communiquer honnêtement ; pour les systèmes agents, elle devient la couche de contrôle qui détermine quand chercher et quoi croire. La métacognition est donc essentielle pour que les LLMs soient à la fois dignes de confiance et compétents ; nous concluons en soulignant les problèmes ouverts à résoudre pour progresser vers cet objectif.
English
Despite significant strides in factual reliability, errors -- often termed hallucinations -- remain a major concern for generative AI, especially as LLMs are increasingly expected to be helpful in more complex or nuanced setups. Yet even in the simplest setting -- factoid question-answering with clear ground truth-frontier models without external tools continue to hallucinate. We argue that most factuality gains in this domain have come from expanding the model's knowledge boundary (encoding more facts) rather than improving awareness of that boundary (distinguishing known from unknown). We conjecture that the latter is inherently difficult: models may lack the discriminative power to perfectly separate truths from errors, creating an unavoidable tradeoff between eliminating hallucinations and preserving utility.
This tradeoff dissolves under a different framing. If we understand hallucinations as confident errors -- incorrect information delivered without appropriate qualification -- a third path emerges beyond the answer-or-abstain dichotomy: expressing uncertainty. We propose faithful uncertainty: aligning linguistic uncertainty with intrinsic uncertainty. This is one facet of metacognition -- the ability to be aware of one's own uncertainty and to act on it. For direct interaction, acting on uncertainty means communicating it honestly; for agentic systems, it becomes the control layer governing when to search and what to trust. Metacognition is thus essential for LLMs to be both trustworthy and capable; we conclude by highlighting open problems for progress towards this objective.