Las alucinaciones socavan la confianza; la metacognición es el camino a seguir

Resumen

A pesar de los avances significativos en la fiabilidad factual, los errores —a menudo denominados alucinaciones— siguen siendo una preocupación importante para la inteligencia artificial generativa, especialmente a medida que se espera que los LLM sean cada vez más útiles en entornos más complejos o con matices. Sin embargo, incluso en el contexto más simple —la respuesta a preguntas factuales con una verdad fundamental clara— los modelos de vanguardia, sin herramientas externas, continúan alucinando. Sostenemos que la mayoría de las mejoras en factualidad en este dominio han provenido de expandir el límite del conocimiento del modelo (codificando más hechos) en lugar de mejorar la conciencia de ese límite (distinguir lo conocido de lo desconocido). Conjeturamos que esto último es inherentemente difícil: los modelos pueden carecer del poder discriminativo para separar perfectamente las verdades de los errores, creando un equilibrio inevitable entre eliminar las alucinaciones y preservar la utilidad. Este equilibrio se disuelve bajo un marco diferente. Si entendemos las alucinaciones como errores confiados —información incorrecta entregada sin la calificación apropiada— emerge un tercer camino más allá de la dicotomía responder-abstenerse: expresar incertidumbre. Proponemos la incertidumbre fiel: alinear la incertidumbre lingüística con la incertidumbre intrínseca. Esta es una faceta de la metacognición —la capacidad de ser consciente de la propia incertidumbre y actuar en consecuencia. Para la interacción directa, actuar sobre la incertidumbre significa comunicarla honestamente; para los sistemas agentivos, se convierte en la capa de control que gobierna cuándo buscar y en qué confiar. La metacognición es, por tanto, esencial para que los LLM sean tanto confiables como capaces; concluimos destacando problemas abiertos para avanzar hacia este objetivo.

English

Despite significant strides in factual reliability, errors -- often termed hallucinations -- remain a major concern for generative AI, especially as LLMs are increasingly expected to be helpful in more complex or nuanced setups. Yet even in the simplest setting -- factoid question-answering with clear ground truth-frontier models without external tools continue to hallucinate. We argue that most factuality gains in this domain have come from expanding the model's knowledge boundary (encoding more facts) rather than improving awareness of that boundary (distinguishing known from unknown). We conjecture that the latter is inherently difficult: models may lack the discriminative power to perfectly separate truths from errors, creating an unavoidable tradeoff between eliminating hallucinations and preserving utility. This tradeoff dissolves under a different framing. If we understand hallucinations as confident errors -- incorrect information delivered without appropriate qualification -- a third path emerges beyond the answer-or-abstain dichotomy: expressing uncertainty. We propose faithful uncertainty: aligning linguistic uncertainty with intrinsic uncertainty. This is one facet of metacognition -- the ability to be aware of one's own uncertainty and to act on it. For direct interaction, acting on uncertainty means communicating it honestly; for agentic systems, it becomes the control layer governing when to search and what to trust. Metacognition is thus essential for LLMs to be both trustworthy and capable; we conclude by highlighting open problems for progress towards this objective.

Las alucinaciones socavan la confianza; la metacognición es el camino a seguir

Hallucinations Undermine Trust; Metacognition is a Way Forward

Resumen

Support