Distributional Semantik-Nachverfolgung: Ein Rahmenwerk zur Erklärung von Halluzinationen in großen Sprachmodellen

papers.abstract

Große Sprachmodelle (LLMs) neigen zu Halluzinationen, der Erzeugung von plausiblen, aber faktisch falschen Aussagen. Diese Arbeit untersucht die intrinsischen, architektonischen Ursprünge dieses Fehlermodus durch drei primäre Beiträge. Erstens schlagen wir Distributional Semantics Tracing (DST) vor, ein einheitliches Framework, das etablierte Interpretierbarkeitstechniken integriert, um eine kausale Karte der Argumentation eines Modells zu erstellen, wobei Bedeutung als Funktion des Kontexts (distributionelle Semantik) behandelt wird. Zweitens identifizieren wir die Ebene des Modells, auf der eine Halluzination unvermeidlich wird, und bestimmen eine spezifische Commitment-Ebene, auf der die internen Repräsentationen des Modells irreversibel von der Faktizität abweichen. Drittens identifizieren wir den zugrunde liegenden Mechanismus für diese Fehler. Wir beobachten einen Konflikt zwischen verschiedenen Berechnungspfaden, den wir mithilfe der Dual-Prozess-Theorie interpretieren: ein schneller, heuristischer assoziativer Pfad (ähnlich System 1) und ein langsamer, bewusster kontextueller Pfad (ähnlich System 2), was zu vorhersehbaren Fehlermodi wie Reasoning Shortcut Hijacks führt. Die Fähigkeit unseres Frameworks, die Kohärenz des kontextuellen Pfads zu quantifizieren, zeigt eine starke negative Korrelation (rho = -0,863) mit den Halluzinationsraten, was darauf hindeutet, dass diese Fehler vorhersehbare Konsequenzen interner semantischer Schwäche sind. Das Ergebnis ist eine mechanistische Erklärung dafür, wie, wann und warum Halluzinationen innerhalb der Transformer-Architektur auftreten.

English

Large Language Models (LLMs) are prone to hallucination, the generation of plausible yet factually incorrect statements. This work investigates the intrinsic, architectural origins of this failure mode through three primary contributions.First, to enable the reliable tracing of internal semantic failures, we propose Distributional Semantics Tracing (DST), a unified framework that integrates established interpretability techniques to produce a causal map of a model's reasoning, treating meaning as a function of context (distributional semantics). Second, we pinpoint the model's layer at which a hallucination becomes inevitable, identifying a specific commitment layer where a model's internal representations irreversibly diverge from factuality. Third, we identify the underlying mechanism for these failures. We observe a conflict between distinct computational pathways, which we interpret using the lens of dual-process theory: a fast, heuristic associative pathway (akin to System 1) and a slow, deliberate contextual pathway (akin to System 2), leading to predictable failure modes such as Reasoning Shortcut Hijacks. Our framework's ability to quantify the coherence of the contextual pathway reveals a strong negative correlation (rho = -0.863) with hallucination rates, implying that these failures are predictable consequences of internal semantic weakness. The result is a mechanistic account of how, when, and why hallucinations occur within the Transformer architecture.

Distributional Semantik-Nachverfolgung: Ein Rahmenwerk zur Erklärung von Halluzinationen in großen Sprachmodellen

Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models

papers.abstract

Support