Галлюцинации подрывают доверие; метакогнитивный подход как путь к решению
Hallucinations Undermine Trust; Metacognition is a Way Forward
May 2, 2026
Авторы: Gal Yona, Mor Geva, Yossi Matias
cs.AI
Аннотация
Несмотря на значительный прогресс в обеспечении фактической достоверности, ошибки — часто называемые галлюцинациями — остаются серьезной проблемой для генеративного ИИ, особенно в условиях, когда от больших языковых моделей (LLM) все чаще ожидают помощи в более сложных или нюансированных сценариях. Однако даже в простейшей setting — ответах на фактологические вопросы с четко установленной истиной — передовые модели, не использующие внешние инструменты, продолжают галлюцинировать. Мы полагаем, что большинство улучшений фактической точности в этой области были достигнуты за счет расширения границ знаний модели (кодирования большего количества фактов), а не за счет повышения осознания этих границ (различения известного от неизвестного). Мы выдвигаем гипотезу, что последнее является изначально сложной задачей: модели могут не обладать достаточной дискриминативной способностью для идеального отделения истины от ошибок, что создает неизбежный компромисс между устранением галлюцинаций и сохранением полезности модели.
Этот компромисс исчезает при иной постановке задачи. Если мы понимаем галлюцинации как уверенные ошибки — некорректную информацию, представленную без соответствующих оговорок — то появляется третий путь, выходящий за рамки дихотомии «ответить или воздержаться»: выражение неопределенности. Мы предлагаем концепцию достоверной неопределенности (faithful uncertainty): согласование языковой неопределенности с внутренней неопределенностью модели. Это один из аспектов метапознания — способности осознавать собственную неопределенность и действовать в соответствии с ней. Для прямого взаимодействия действие в условиях неопределенности означает ее честное сообщение; для агентных систем она становится управляющим слоем, определяющим, когда осуществлять поиск и чему доверять. Таким образом, метапознание необходимо для того, чтобы LLM были как надежными, так и эффективными; в заключение мы обозначаем нерешенные проблемы на пути к этой цели.
English
Despite significant strides in factual reliability, errors -- often termed hallucinations -- remain a major concern for generative AI, especially as LLMs are increasingly expected to be helpful in more complex or nuanced setups. Yet even in the simplest setting -- factoid question-answering with clear ground truth-frontier models without external tools continue to hallucinate. We argue that most factuality gains in this domain have come from expanding the model's knowledge boundary (encoding more facts) rather than improving awareness of that boundary (distinguishing known from unknown). We conjecture that the latter is inherently difficult: models may lack the discriminative power to perfectly separate truths from errors, creating an unavoidable tradeoff between eliminating hallucinations and preserving utility.
This tradeoff dissolves under a different framing. If we understand hallucinations as confident errors -- incorrect information delivered without appropriate qualification -- a third path emerges beyond the answer-or-abstain dichotomy: expressing uncertainty. We propose faithful uncertainty: aligning linguistic uncertainty with intrinsic uncertainty. This is one facet of metacognition -- the ability to be aware of one's own uncertainty and to act on it. For direct interaction, acting on uncertainty means communicating it honestly; for agentic systems, it becomes the control layer governing when to search and what to trust. Metacognition is thus essential for LLMs to be both trustworthy and capable; we conclude by highlighting open problems for progress towards this objective.