ChatPaper.aiChatPaper

一般化か記憶化か:モード制御のための動的デコード

Generalization or Memorization: Dynamic Decoding for Mode Steering

October 25, 2025
著者: Xuanming Zhang
cs.AI

要旨

大規模言語モデル(LLM)は、驚異的な汎化能力と、訓練データに対する脆弱で逐語的な記憶という、問題のある二面性を示す。この予測不可能性は、高リスク応用における信頼性を損なう。本研究では、これらの異なる推論モードを理解し、特定し、制御するための統一フレームワークを提案する。まず、情報ボトルネック(IB)原理に基づく理論モデルを導入し、汎化を圧縮されたタスク関連表現の学習として、記憶を圧縮失敗として定式化する。この理論に基づき、新規の推論時アルゴリズムである動的モードステアリング(DMS)を開発する。DMSは二要素から構成される:(1)モデルの瞬間的な記憶依存度を特定する軽量な因果的線形プローブ、(2)事前同定された汎化回路に向けてモデル計算を誘導する動的活性化ステアリング機構である。DMSは適応型自己対比デコーディングの一形態と位置付ける。推論および忠実性タスクにおける実験により、DMSが論理的一貫性と事実的精度を大幅に改善し、LLMの信頼性向上に原理的なアプローチを提供することを実証する。
English
Large Language Models (LLMs) exhibit a troubling duality, capable of both remarkable generalization and brittle, verbatim memorization of their training data. This unpredictability undermines their reliability in high-stakes applications. In this work, we propose a unified framework to understand, identify, and control these distinct reasoning modes. First, we introduce a theoretical model based on the Information Bottleneck (IB) principle, formalizing generalization as the learning of a compressed, task-relevant representation and memorization as a failure to compress. Building on this theory, we develop Dynamic Mode Steering (DMS), a novel inference-time algorithm which comprises two components: (1) a lightweight, causally-grounded linear probe that identifies the model's instantaneous reliance on memorization, and (2) a dynamic activation steering mechanism that nudges the model's computation towards pre-identified generalization circuits. We frame DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning and faithfulness tasks demonstrate that DMS significantly improves logical consistency and factual accuracy, thereby offering a principled approach to enhancing LLM reliability.
PDF31December 1, 2025