Große Sprachmodelle wissen NICHT wirklich, was sie nicht wissen.
Large Language Models Do NOT Really Know What They Don't Know
October 10, 2025
papers.authors: Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng
cs.AI
papers.abstract
Aktuelle Forschung deutet darauf hin, dass große Sprachmodelle (LLMs) Signale für Faktizität in ihren internen Repräsentationen kodieren, wie beispielsweise versteckte Zustände, Aufmerksamkeitsgewichte oder Token-Wahrscheinlichkeiten. Dies impliziert, dass LLMs möglicherweise „wissen, was sie nicht wissen“. Allerdings können LLMs auch faktische Fehler produzieren, indem sie sich auf Abkürzungen oder trügerische Assoziationen verlassen. Diese Fehler werden durch dasselbe Trainingsziel verursacht, das korrekte Vorhersagen fördert, und wirft die Frage auf, ob interne Berechnungen zuverlässig zwischen faktischen und halluzinierten Ausgaben unterscheiden können. In dieser Arbeit führen wir eine mechanistische Analyse durch, wie LLMs interne faktische Anfragen verarbeiten, indem wir zwei Arten von Halluzinationen basierend auf ihrer Abhängigkeit von Subjektinformationen vergleichen. Wir stellen fest, dass LLMs, wenn Halluzinationen mit Subjektwissen verbunden sind, denselben internen Abrufprozess wie für korrekte Antworten verwenden, was zu überlappenden und ununterscheidbaren Geometrien der versteckten Zustände führt. Im Gegensatz dazu erzeugen Halluzinationen, die vom Subjektwissen losgelöst sind, distinkte, gruppierte Repräsentationen, die sie erkennbar machen. Diese Erkenntnisse offenbaren eine grundlegende Einschränkung: LLMs kodieren keine Wahrhaftigkeit in ihren internen Zuständen, sondern lediglich Muster des Wissensabrufs, was zeigt, dass „LLMs nicht wirklich wissen, was sie nicht wissen“.
English
Recent work suggests that large language models (LLMs) encode factuality
signals in their internal representations, such as hidden states, attention
weights, or token probabilities, implying that LLMs may "know what they don't
know". However, LLMs can also produce factual errors by relying on shortcuts or
spurious associations. These error are driven by the same training objective
that encourage correct predictions, raising the question of whether internal
computations can reliably distinguish between factual and hallucinated outputs.
In this work, we conduct a mechanistic analysis of how LLMs internally process
factual queries by comparing two types of hallucinations based on their
reliance on subject information. We find that when hallucinations are
associated with subject knowledge, LLMs employ the same internal recall process
as for correct responses, leading to overlapping and indistinguishable
hidden-state geometries. In contrast, hallucinations detached from subject
knowledge produce distinct, clustered representations that make them
detectable. These findings reveal a fundamental limitation: LLMs do not encode
truthfulness in their internal states but only patterns of knowledge recall,
demonstrating that "LLMs don't really know what they don't know".