Halluzinationen untergraben Vertrauen; Metakognition ist ein Ausweg

Zusammenfassung

Trotz bedeutender Fortschritte bei der faktischen Zuverlässigkeit bleiben Fehler – oft als Halluzinationen bezeichnet – ein Hauptproblem für generative KI, insbesondere da zunehmend erwartet wird, dass LLMs in komplexeren oder nuancierteren Kontexten hilfreich sein sollen. Doch selbst im einfachsten Setting – der Beantwortung faktischer Fragen mit klarer Grundwahrheit – halluzinieren Spitzenmodelle ohne externe Werkzeuge weiterhin. Wir argumentieren, dass die meisten Verbesserungen der Faktentreue in diesem Bereich durch die Erweiterung der Wissensgrenze des Modells (Kodierung mehrerer Fakten) und nicht durch ein verbessertes Bewusstsein für diese Grenze (Unterscheidung zwischen Bekanntem und Unbekanntem) erzielt wurden. Wir vermuten, dass Letzteres inhärent schwierig ist: Modelle könnten die diskriminative Fähigkeit fehlen, um Wahrheiten perfekt von Fehlern zu trennen, was einen unvermeidlichen Zielkonflikt zwischen der Beseitigung von Halluzinationen und dem Erhalt der Nützlichkeit schafft. Dieser Zielkonflikt löst sich unter einer anderen Betrachtungsweise auf. Wenn wir Halluzinationen als selbstsichere Fehler verstehen – falsche Informationen, die ohne angemessene Einschränkung geliefert werden – eröffnet sich ein dritter Weg jenseits der Antwort-oder-Verzichts-Dichotomie: die Äußerung von Unsicherheit. Wir schlagen *vertrauenswürdige Unsicherheit* vor: die Ausrichtung der sprachlichen Unsicherheit an der intrinsischen Unsicherheit. Dies ist eine Facette der Metakognition – der Fähigkeit, sich der eigenen Unsicherheit bewusst zu sein und entsprechend zu handeln. Bei der direkten Interaktion bedeutet Handeln basierend auf Unsicherheit, diese ehrlich zu kommunizieren; für agentenbasierte Systeme wird sie zur Kontrollschicht, die steuert, wann gesucht und was vertraut werden soll. Metakognition ist daher wesentlich, damit LLMs sowohl vertrauenswürdig als auch leistungsfähig sind; wir schließen mit einer Hervorhebung offener Probleme für Fortschritte hin zu diesem Ziel.

English

Despite significant strides in factual reliability, errors -- often termed hallucinations -- remain a major concern for generative AI, especially as LLMs are increasingly expected to be helpful in more complex or nuanced setups. Yet even in the simplest setting -- factoid question-answering with clear ground truth-frontier models without external tools continue to hallucinate. We argue that most factuality gains in this domain have come from expanding the model's knowledge boundary (encoding more facts) rather than improving awareness of that boundary (distinguishing known from unknown). We conjecture that the latter is inherently difficult: models may lack the discriminative power to perfectly separate truths from errors, creating an unavoidable tradeoff between eliminating hallucinations and preserving utility. This tradeoff dissolves under a different framing. If we understand hallucinations as confident errors -- incorrect information delivered without appropriate qualification -- a third path emerges beyond the answer-or-abstain dichotomy: expressing uncertainty. We propose faithful uncertainty: aligning linguistic uncertainty with intrinsic uncertainty. This is one facet of metacognition -- the ability to be aware of one's own uncertainty and to act on it. For direct interaction, acting on uncertainty means communicating it honestly; for agentic systems, it becomes the control layer governing when to search and what to trust. Metacognition is thus essential for LLMs to be both trustworthy and capable; we conclude by highlighting open problems for progress towards this objective.

Halluzinationen untergraben Vertrauen; Metakognition ist ein Ausweg

Hallucinations Undermine Trust; Metacognition is a Way Forward

Zusammenfassung

Support