Rastreo Semántico Distribucional: Un Marco para Explicar las Alucinaciones en Modelos de Lenguaje a Gran Escala
Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models
October 7, 2025
Autores: Gagan Bhatia, Somayajulu G Sripada, Kevin Allan, Jacobo Azcona
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son propensos a la alucinación, la generación de afirmaciones plausibles pero factualmente incorrectas. Este trabajo investiga los orígenes intrínsecos y arquitectónicos de este modo de fallo a través de tres contribuciones principales. En primer lugar, para permitir el rastreo confiable de fallos semánticos internos, proponemos el Rastreo Semántico Distribucional (DST, por sus siglas en inglés), un marco unificado que integra técnicas establecidas de interpretabilidad para producir un mapa causal del razonamiento de un modelo, tratando el significado como una función del contexto (semántica distribucional). En segundo lugar, identificamos la capa del modelo en la que una alucinación se vuelve inevitable, señalando una capa de compromiso específica donde las representaciones internas del modelo divergen irreversiblemente de la factualidad. En tercer lugar, identificamos el mecanismo subyacente de estos fallos. Observamos un conflicto entre distintas vías computacionales, que interpretamos utilizando la teoría de los procesos duales: una vía rápida y heurística asociativa (similar al Sistema 1) y una vía lenta y deliberada contextual (similar al Sistema 2), lo que conduce a modos de fallo predecibles como los Secuestros de Atajos de Razonamiento. La capacidad de nuestro marco para cuantificar la coherencia de la vía contextual revela una fuerte correlación negativa (rho = -0.863) con las tasas de alucinación, lo que implica que estos fallos son consecuencias predecibles de la debilidad semántica interna. El resultado es una explicación mecanicista de cómo, cuándo y por qué ocurren las alucinaciones dentro de la arquitectura Transformer.
English
Large Language Models (LLMs) are prone to hallucination, the generation of
plausible yet factually incorrect statements. This work investigates the
intrinsic, architectural origins of this failure mode through three primary
contributions.First, to enable the reliable tracing of internal semantic
failures, we propose Distributional Semantics Tracing (DST), a unified
framework that integrates established interpretability techniques to produce a
causal map of a model's reasoning, treating meaning as a function of context
(distributional semantics). Second, we pinpoint the model's layer at which a
hallucination becomes inevitable, identifying a specific commitment
layer where a model's internal representations irreversibly diverge from
factuality. Third, we identify the underlying mechanism for these failures. We
observe a conflict between distinct computational pathways, which we interpret
using the lens of dual-process theory: a fast, heuristic associative
pathway (akin to System 1) and a slow, deliberate contextual pathway
(akin to System 2), leading to predictable failure modes such as
Reasoning Shortcut Hijacks. Our framework's ability to quantify the
coherence of the contextual pathway reveals a strong negative correlation
(rho = -0.863) with hallucination rates, implying that these failures are
predictable consequences of internal semantic weakness. The result is a
mechanistic account of how, when, and why hallucinations occur within the
Transformer architecture.