ChatPaper.aiChatPaper

Rastreamento Semântico Distribucional: Um Framework para Explicar Alucinações em Modelos de Linguagem de Grande Escala

Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models

October 7, 2025
Autores: Gagan Bhatia, Somayajulu G Sripada, Kevin Allan, Jacobo Azcona
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) são propensos à alucinação, a geração de afirmações plausíveis, mas factualmente incorretas. Este trabalho investiga as origens intrínsecas e arquitetônicas desse modo de falha por meio de três contribuições principais. Primeiro, para permitir o rastreamento confiável de falhas semânticas internas, propomos o Rastreamento Semântico Distribucional (DST), um framework unificado que integra técnicas estabelecidas de interpretabilidade para produzir um mapa causal do raciocínio do modelo, tratando o significado como uma função do contexto (semântica distribucional). Segundo, identificamos a camada do modelo na qual uma alucinação se torna inevitável, apontando uma camada de compromisso específica onde as representações internas do modelo divergem irreversivelmente da factualidade. Terceiro, identificamos o mecanismo subjacente para essas falhas. Observamos um conflito entre vias computacionais distintas, que interpretamos usando a lente da teoria do processo dual: uma via associativa heurística rápida (semelhante ao Sistema 1) e uma via contextual deliberada lenta (semelhante ao Sistema 2), levando a modos de falha previsíveis, como os Desvios de Atalho de Raciocínio. A capacidade do nosso framework de quantificar a coerência da via contextual revela uma forte correlação negativa (rho = -0,863) com as taxas de alucinação, implicando que essas falhas são consequências previsíveis de fraquezas semânticas internas. O resultado é uma explicação mecanicista de como, quando e por que as alucinações ocorrem dentro da arquitetura Transformer.
English
Large Language Models (LLMs) are prone to hallucination, the generation of plausible yet factually incorrect statements. This work investigates the intrinsic, architectural origins of this failure mode through three primary contributions.First, to enable the reliable tracing of internal semantic failures, we propose Distributional Semantics Tracing (DST), a unified framework that integrates established interpretability techniques to produce a causal map of a model's reasoning, treating meaning as a function of context (distributional semantics). Second, we pinpoint the model's layer at which a hallucination becomes inevitable, identifying a specific commitment layer where a model's internal representations irreversibly diverge from factuality. Third, we identify the underlying mechanism for these failures. We observe a conflict between distinct computational pathways, which we interpret using the lens of dual-process theory: a fast, heuristic associative pathway (akin to System 1) and a slow, deliberate contextual pathway (akin to System 2), leading to predictable failure modes such as Reasoning Shortcut Hijacks. Our framework's ability to quantify the coherence of the contextual pathway reveals a strong negative correlation (rho = -0.863) with hallucination rates, implying that these failures are predictable consequences of internal semantic weakness. The result is a mechanistic account of how, when, and why hallucinations occur within the Transformer architecture.
PDF22October 8, 2025