Трассировка распределенной семантики: методология объяснения галлюцинаций в больших языковых моделях
Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models
October 7, 2025
Авторы: Gagan Bhatia, Somayajulu G Sripada, Kevin Allan, Jacobo Azcona
cs.AI
Аннотация
Крупные языковые модели (LLM) склонны к галлюцинациям — генерации правдоподобных, но фактически неверных утверждений. В данной работе исследуются внутренние, архитектурные причины этого типа ошибок через три основных вклада. Во-первых, для надежного отслеживания внутренних семантических сбоев мы предлагаем метод Distributional Semantics Tracing (DST) — унифицированный фреймворк, который интегрирует устоявшиеся методы интерпретируемости для создания причинно-следственной карты рассуждений модели, рассматривая значение как функцию контекста (дистрибутивная семантика). Во-вторых, мы определяем слой модели, на котором галлюцинация становится неизбежной, выделяя так называемый слой фиксации, где внутренние представления модели необратимо отклоняются от фактической достоверности. В-третьих, мы выявляем механизм, лежащий в основе этих ошибок. Мы наблюдаем конфликт между различными вычислительными путями, который интерпретируем через призму теории двойных процессов: быстрый, эвристический ассоциативный путь (аналогичный Системе 1) и медленный, осознанный контекстный путь (аналогичный Системе 2), что приводит к предсказуемым типам ошибок, таким как захват рассуждений через упрощенные пути. Способность нашего фреймворка количественно оценивать согласованность контекстного пути выявляет сильную отрицательную корреляцию (rho = -0.863) с частотой галлюцинаций, что указывает на то, что эти ошибки являются предсказуемыми следствиями внутренней семантической слабости. В результате мы получаем механистическое объяснение того, как, когда и почему галлюцинации возникают в архитектуре Transformer.
English
Large Language Models (LLMs) are prone to hallucination, the generation of
plausible yet factually incorrect statements. This work investigates the
intrinsic, architectural origins of this failure mode through three primary
contributions.First, to enable the reliable tracing of internal semantic
failures, we propose Distributional Semantics Tracing (DST), a unified
framework that integrates established interpretability techniques to produce a
causal map of a model's reasoning, treating meaning as a function of context
(distributional semantics). Second, we pinpoint the model's layer at which a
hallucination becomes inevitable, identifying a specific commitment
layer where a model's internal representations irreversibly diverge from
factuality. Third, we identify the underlying mechanism for these failures. We
observe a conflict between distinct computational pathways, which we interpret
using the lens of dual-process theory: a fast, heuristic associative
pathway (akin to System 1) and a slow, deliberate contextual pathway
(akin to System 2), leading to predictable failure modes such as
Reasoning Shortcut Hijacks. Our framework's ability to quantify the
coherence of the contextual pathway reveals a strong negative correlation
(rho = -0.863) with hallucination rates, implying that these failures are
predictable consequences of internal semantic weakness. The result is a
mechanistic account of how, when, and why hallucinations occur within the
Transformer architecture.