Große Sprachmodelle wissen NICHT wirklich, was sie nicht wissen.

papers.abstract

Aktuelle Forschung deutet darauf hin, dass große Sprachmodelle (LLMs) Signale für Faktizität in ihren internen Repräsentationen kodieren, wie beispielsweise versteckte Zustände, Aufmerksamkeitsgewichte oder Token-Wahrscheinlichkeiten. Dies impliziert, dass LLMs möglicherweise „wissen, was sie nicht wissen“. Allerdings können LLMs auch faktische Fehler produzieren, indem sie sich auf Abkürzungen oder trügerische Assoziationen verlassen. Diese Fehler werden durch dasselbe Trainingsziel verursacht, das korrekte Vorhersagen fördert, und wirft die Frage auf, ob interne Berechnungen zuverlässig zwischen faktischen und halluzinierten Ausgaben unterscheiden können. In dieser Arbeit führen wir eine mechanistische Analyse durch, wie LLMs interne faktische Anfragen verarbeiten, indem wir zwei Arten von Halluzinationen basierend auf ihrer Abhängigkeit von Subjektinformationen vergleichen. Wir stellen fest, dass LLMs, wenn Halluzinationen mit Subjektwissen verbunden sind, denselben internen Abrufprozess wie für korrekte Antworten verwenden, was zu überlappenden und ununterscheidbaren Geometrien der versteckten Zustände führt. Im Gegensatz dazu erzeugen Halluzinationen, die vom Subjektwissen losgelöst sind, distinkte, gruppierte Repräsentationen, die sie erkennbar machen. Diese Erkenntnisse offenbaren eine grundlegende Einschränkung: LLMs kodieren keine Wahrhaftigkeit in ihren internen Zuständen, sondern lediglich Muster des Wissensabrufs, was zeigt, dass „LLMs nicht wirklich wissen, was sie nicht wissen“.

English

Recent work suggests that large language models (LLMs) encode factuality signals in their internal representations, such as hidden states, attention weights, or token probabilities, implying that LLMs may "know what they don't know". However, LLMs can also produce factual errors by relying on shortcuts or spurious associations. These error are driven by the same training objective that encourage correct predictions, raising the question of whether internal computations can reliably distinguish between factual and hallucinated outputs. In this work, we conduct a mechanistic analysis of how LLMs internally process factual queries by comparing two types of hallucinations based on their reliance on subject information. We find that when hallucinations are associated with subject knowledge, LLMs employ the same internal recall process as for correct responses, leading to overlapping and indistinguishable hidden-state geometries. In contrast, hallucinations detached from subject knowledge produce distinct, clustered representations that make them detectable. These findings reveal a fundamental limitation: LLMs do not encode truthfulness in their internal states but only patterns of knowledge recall, demonstrating that "LLMs don't really know what they don't know".

Große Sprachmodelle wissen NICHT wirklich, was sie nicht wissen.

Large Language Models Do NOT Really Know What They Don't Know

papers.abstract

Support