Generalización o Memorización: Decodificación Dinámica para la Dirección de Modos
Generalization or Memorization: Dynamic Decoding for Mode Steering
October 25, 2025
Autores: Xuanming Zhang
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs) exhiben una dualidad problemática, siendo capaces tanto de una generalización notable como de una memorización literal y frágil de sus datos de entrenamiento. Esta imprevisibilidad socava su fiabilidad en aplicaciones de alto riesgo. En este trabajo, proponemos un marco unificado para comprender, identificar y controlar estos modos de razonamiento distintos. En primer lugar, introducimos un modelo teórico basado en el principio del Cuello de Botella de la Información (IB), que formaliza la generalización como el aprendizaje de una representación comprimida y relevante para la tarea, y la memorización como un fallo en la compresión. Basándonos en esta teoría, desarrollamos Dynamic Mode Steering (DMS), un novedoso algoritmo en tiempo de inferencia que comprende dos componentes: (1) un probe lineal ligero y causalmente fundamentado que identifica la dependencia instantánea del modelo en la memorización, y (2) un mecanismo de direccionamiento dinámico de activaciones que impulsa el cálculo del modelo hacia circuitos de generalización preidentificados. Enmarcamos DMS como una forma de decodificación adaptativa y autocontrastiva. Los experimentos en tareas de razonamiento y veracidad demuestran que DMS mejora significativamente la coherencia lógica y la precisión factual, ofreciendo así un enfoque fundamentado para mejorar la fiabilidad de los LLMs.
English
Large Language Models (LLMs) exhibit a troubling duality, capable of both
remarkable generalization and brittle, verbatim memorization of their training
data. This unpredictability undermines their reliability in high-stakes
applications. In this work, we propose a unified framework to understand,
identify, and control these distinct reasoning modes. First, we introduce a
theoretical model based on the Information Bottleneck (IB) principle,
formalizing generalization as the learning of a compressed, task-relevant
representation and memorization as a failure to compress. Building on this
theory, we develop Dynamic Mode Steering (DMS), a novel inference-time
algorithm which comprises two components: (1) a lightweight, causally-grounded
linear probe that identifies the model's instantaneous reliance on
memorization, and (2) a dynamic activation steering mechanism that nudges the
model's computation towards pre-identified generalization circuits. We frame
DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning
and faithfulness tasks demonstrate that DMS significantly improves logical
consistency and factual accuracy, thereby offering a principled approach to
enhancing LLM reliability.