ChatPaper.aiChatPaper

Generalisatie of Memorisatie: Dynamisch Decoderen voor Modussturing

Generalization or Memorization: Dynamic Decoding for Mode Steering

October 25, 2025
Auteurs: Xuanming Zhang
cs.AI

Samenvatting

Grote Taalmodellen (GTM's) vertonen een verontrustende dualiteit: ze zijn zowel tot opmerkelijke generalisatie als tot brosse, letterlijke memorisatie van hun trainingsgegevens in staat. Deze onvoorspelbaarheid ondermijnt hun betrouwbaarheid in hoog-risico toepassingen. In dit werk stellen we een uniform raamwerk voor om deze verschillende redeneermodi te begrijpen, identificeren en controleren. Ten eerste introduceren we een theoretisch model gebaseerd op het *Information Bottleneck* (IB) principe, dat generalisatie formaliseert als het aanleren van een gecomprimeerde, taakrelevante representatie en memorisatie als een compressiefout. Voortbouwend op deze theorie ontwikkelen we *Dynamic Mode Steering* (DMS), een nieuw algoritme voor tijdens de inferentie dat uit twee componenten bestaat: (1) een lichtgewicht, causaal gefundeerde lineaire probe die de momentane afhankelijkheid van het model van memorisatie identificeert, en (2) een dynamisch *activation steering*-mechanisme dat de berekening van het model subtiel richting vooraf geïdentificeerde generalisatiecircuits stuurt. We beschrijven DMS als een vorm van adaptieve, zelf-contrastieve decodering. Experimenten met redeneer- en feitelijkheidsnauwkeurigheidstaken tonen aan dat DMS de logische consistentie en feitelijke nauwkeurigheid aanzienlijk verbetert, en biedt zo een principiële aanpak om de betrouwbaarheid van GTM's te vergroten.
English
Large Language Models (LLMs) exhibit a troubling duality, capable of both remarkable generalization and brittle, verbatim memorization of their training data. This unpredictability undermines their reliability in high-stakes applications. In this work, we propose a unified framework to understand, identify, and control these distinct reasoning modes. First, we introduce a theoretical model based on the Information Bottleneck (IB) principle, formalizing generalization as the learning of a compressed, task-relevant representation and memorization as a failure to compress. Building on this theory, we develop Dynamic Mode Steering (DMS), a novel inference-time algorithm which comprises two components: (1) a lightweight, causally-grounded linear probe that identifies the model's instantaneous reliance on memorization, and (2) a dynamic activation steering mechanism that nudges the model's computation towards pre-identified generalization circuits. We frame DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning and faithfulness tasks demonstrate that DMS significantly improves logical consistency and factual accuracy, thereby offering a principled approach to enhancing LLM reliability.
PDF31December 1, 2025