Generalisierung oder Auswendiglernen: Dynamische Decodierung zur Modussteuerung
Generalization or Memorization: Dynamic Decoding for Mode Steering
October 25, 2025
papers.authors: Xuanming Zhang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) weisen eine beunruhigende Dualität auf: Sie sind sowohl zu bemerkenswerter Generalisierung als auch zu brüchiger, wortgetreuer Memorierung ihrer Trainingsdaten fähig. Diese Unvorhersehbarkeit untergräbt ihre Zuverlässigkeit in hochriskanten Anwendungen. In dieser Arbeit schlagen wir einen einheitlichen Rahmen vor, um diese unterschiedlichen Denkmodi zu verstehen, zu identifizieren und zu steuern. Zunächst führen wir ein theoretisches Modell auf Basis des Information-Bottleneck-Prinzips (IB) ein, das Generalisierung als das Erlernen einer komprimierten, aufgabenrelevanten Repräsentation formalisiert und Memorierung als ein Scheitern der Kompression beschreibt. Aufbauend auf dieser Theorie entwickeln wir Dynamic Mode Steering (DMS), einen neuartigen Algorithmus für die Inferenzzeit, der zwei Komponenten umfasst: (1) eine leichtgewichtige, kausal fundierte lineare Sonde, die die momentane Abhängigkeit des Modells von Memorierung identifiziert, und (2) einen Mechanismus zur dynamischen Steuerung von Aktivierungen, der die Berechnung des Modells in Richtung vorab identifizierter Generalisierungsschaltkreise lenkt. Wir fassen DMS als eine Form von adaptivem, selbstkontrastivem Decoding auf. Experimente zu Reasoning- und Wahrhaftigkeitsaufgaben zeigen, dass DMS die logische Konsistenz und faktische Genauigkeit signifikant verbessert und somit einen prinzipienbasierten Ansatz zur Erhöhung der LLM-Zuverlässigkeit bietet.
English
Large Language Models (LLMs) exhibit a troubling duality, capable of both
remarkable generalization and brittle, verbatim memorization of their training
data. This unpredictability undermines their reliability in high-stakes
applications. In this work, we propose a unified framework to understand,
identify, and control these distinct reasoning modes. First, we introduce a
theoretical model based on the Information Bottleneck (IB) principle,
formalizing generalization as the learning of a compressed, task-relevant
representation and memorization as a failure to compress. Building on this
theory, we develop Dynamic Mode Steering (DMS), a novel inference-time
algorithm which comprises two components: (1) a lightweight, causally-grounded
linear probe that identifies the model's instantaneous reliance on
memorization, and (2) a dynamic activation steering mechanism that nudges the
model's computation towards pre-identified generalization circuits. We frame
DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning
and faithfulness tasks demonstrate that DMS significantly improves logical
consistency and factual accuracy, thereby offering a principled approach to
enhancing LLM reliability.