Generalisierung oder Auswendiglernen: Dynamische Decodierung zur Modussteuerung

papers.abstract

Große Sprachmodelle (LLMs) weisen eine beunruhigende Dualität auf: Sie sind sowohl zu bemerkenswerter Generalisierung als auch zu brüchiger, wortgetreuer Memorierung ihrer Trainingsdaten fähig. Diese Unvorhersehbarkeit untergräbt ihre Zuverlässigkeit in hochriskanten Anwendungen. In dieser Arbeit schlagen wir einen einheitlichen Rahmen vor, um diese unterschiedlichen Denkmodi zu verstehen, zu identifizieren und zu steuern. Zunächst führen wir ein theoretisches Modell auf Basis des Information-Bottleneck-Prinzips (IB) ein, das Generalisierung als das Erlernen einer komprimierten, aufgabenrelevanten Repräsentation formalisiert und Memorierung als ein Scheitern der Kompression beschreibt. Aufbauend auf dieser Theorie entwickeln wir Dynamic Mode Steering (DMS), einen neuartigen Algorithmus für die Inferenzzeit, der zwei Komponenten umfasst: (1) eine leichtgewichtige, kausal fundierte lineare Sonde, die die momentane Abhängigkeit des Modells von Memorierung identifiziert, und (2) einen Mechanismus zur dynamischen Steuerung von Aktivierungen, der die Berechnung des Modells in Richtung vorab identifizierter Generalisierungsschaltkreise lenkt. Wir fassen DMS als eine Form von adaptivem, selbstkontrastivem Decoding auf. Experimente zu Reasoning- und Wahrhaftigkeitsaufgaben zeigen, dass DMS die logische Konsistenz und faktische Genauigkeit signifikant verbessert und somit einen prinzipienbasierten Ansatz zur Erhöhung der LLM-Zuverlässigkeit bietet.

English

Large Language Models (LLMs) exhibit a troubling duality, capable of both remarkable generalization and brittle, verbatim memorization of their training data. This unpredictability undermines their reliability in high-stakes applications. In this work, we propose a unified framework to understand, identify, and control these distinct reasoning modes. First, we introduce a theoretical model based on the Information Bottleneck (IB) principle, formalizing generalization as the learning of a compressed, task-relevant representation and memorization as a failure to compress. Building on this theory, we develop Dynamic Mode Steering (DMS), a novel inference-time algorithm which comprises two components: (1) a lightweight, causally-grounded linear probe that identifies the model's instantaneous reliance on memorization, and (2) a dynamic activation steering mechanism that nudges the model's computation towards pre-identified generalization circuits. We frame DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning and faithfulness tasks demonstrate that DMS significantly improves logical consistency and factual accuracy, thereby offering a principled approach to enhancing LLM reliability.

Generalisierung oder Auswendiglernen: Dynamische Decodierung zur Modussteuerung

Generalization or Memorization: Dynamic Decoding for Mode Steering

papers.abstract

Support