ChatPaper.aiChatPaper

Tracciamento Semantico Distribuzionale: Un Framework per Spiegare le Allucinazioni nei Modelli Linguistici di Grande Dimensione

Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models

October 7, 2025
Autori: Gagan Bhatia, Somayajulu G Sripada, Kevin Allan, Jacobo Azcona
cs.AI

Abstract

I Large Language Model (LLM) sono inclini all'allucinazione, ovvero alla generazione di affermazioni plausibili ma fattualmente errate. Questo lavoro indaga le origini intrinseche e architetturali di questa modalità di fallimento attraverso tre contributi principali. In primo luogo, per consentire il tracciamento affidabile dei fallimenti semantici interni, proponiamo il Distributional Semantics Tracing (DST), un framework unificato che integra tecniche consolidate di interpretabilità per produrre una mappa causale del ragionamento di un modello, trattando il significato come una funzione del contesto (semantica distribuzionale). In secondo luogo, identifichiamo lo strato del modello in cui un'allucinazione diventa inevitabile, individuando un livello di impegno specifico in cui le rappresentazioni interne del modello divergono irreversibilmente dalla fattualità. In terzo luogo, identifichiamo il meccanismo sottostante a questi fallimenti. Osserviamo un conflitto tra percorsi computazionali distinti, che interpretiamo attraverso la lente della teoria del doppio processo: un percorso associativo rapido ed euristico (simile al Sistema 1) e un percorso contestuale lento e deliberato (simile al Sistema 2), che portano a modalità di fallimento prevedibili come gli Hijack dei Ragionamenti Brevi. La capacità del nostro framework di quantificare la coerenza del percorso contestuale rivela una forte correlazione negativa (rho = -0.863) con i tassi di allucinazione, implicando che questi fallimenti siano conseguenze prevedibili di una debolezza semantica interna. Il risultato è una spiegazione meccanicistica di come, quando e perché le allucinazioni si verificano all'interno dell'architettura Transformer.
English
Large Language Models (LLMs) are prone to hallucination, the generation of plausible yet factually incorrect statements. This work investigates the intrinsic, architectural origins of this failure mode through three primary contributions.First, to enable the reliable tracing of internal semantic failures, we propose Distributional Semantics Tracing (DST), a unified framework that integrates established interpretability techniques to produce a causal map of a model's reasoning, treating meaning as a function of context (distributional semantics). Second, we pinpoint the model's layer at which a hallucination becomes inevitable, identifying a specific commitment layer where a model's internal representations irreversibly diverge from factuality. Third, we identify the underlying mechanism for these failures. We observe a conflict between distinct computational pathways, which we interpret using the lens of dual-process theory: a fast, heuristic associative pathway (akin to System 1) and a slow, deliberate contextual pathway (akin to System 2), leading to predictable failure modes such as Reasoning Shortcut Hijacks. Our framework's ability to quantify the coherence of the contextual pathway reveals a strong negative correlation (rho = -0.863) with hallucination rates, implying that these failures are predictable consequences of internal semantic weakness. The result is a mechanistic account of how, when, and why hallucinations occur within the Transformer architecture.
PDF22October 8, 2025