ChatPaper.aiChatPaper

Обобщение или запоминание: динамическое декодирование для управления режимами

Generalization or Memorization: Dynamic Decoding for Mode Steering

October 25, 2025
Авторы: Xuanming Zhang
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют тревожную двойственность, будучи способными как к впечатляющему обобщению, так и к хрупкому, дословному запоминанию своих обучающих данных. Эта непредсказуемость подрывает их надежность в ответственных приложениях. В данной работе мы предлагаем единую концепцию для понимания, идентификации и управления этими различными режимами рассуждений. Во-первых, мы вводим теоретическую модель, основанную на принципе информационного бутылочного горлышка (Information Bottleneck, IB), формализующую обобщение как усвоение сжатого, релевантного для задачи представления, а запоминание — как неудачу сжатия. Опираясь на эту теорию, мы разрабатываем динамическое управление режимами (Dynamic Mode Steering, DMS) — новый алгоритм на этапе вывода, который состоит из двух компонентов: (1) легковесного линейного пробника, основанного на причинно-следственных связях, который идентифицирует мгновенную зависимость модели от запоминания, и (2) механизма динамического управления активациями, который мягко направляет вычисления модели в сторону предварительно идентифицированных цепей обобщения. Мы представляем DMS как форму адаптивного самоконтрастного декодирования. Эксперименты на задачах логического вывода и проверки достоверности показывают, что DMS значительно улучшает логическую согласованность и фактическую точность, предлагая тем самым принципиальный подход к повышению надежности LLM.
English
Large Language Models (LLMs) exhibit a troubling duality, capable of both remarkable generalization and brittle, verbatim memorization of their training data. This unpredictability undermines their reliability in high-stakes applications. In this work, we propose a unified framework to understand, identify, and control these distinct reasoning modes. First, we introduce a theoretical model based on the Information Bottleneck (IB) principle, formalizing generalization as the learning of a compressed, task-relevant representation and memorization as a failure to compress. Building on this theory, we develop Dynamic Mode Steering (DMS), a novel inference-time algorithm which comprises two components: (1) a lightweight, causally-grounded linear probe that identifies the model's instantaneous reliance on memorization, and (2) a dynamic activation steering mechanism that nudges the model's computation towards pre-identified generalization circuits. We frame DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning and faithfulness tasks demonstrate that DMS significantly improves logical consistency and factual accuracy, thereby offering a principled approach to enhancing LLM reliability.
PDF31December 1, 2025