Generalización o Memorización: Decodificación Dinámica para la Dirección de Modos

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs) exhiben una dualidad problemática, siendo capaces tanto de una generalización notable como de una memorización literal y frágil de sus datos de entrenamiento. Esta imprevisibilidad socava su fiabilidad en aplicaciones de alto riesgo. En este trabajo, proponemos un marco unificado para comprender, identificar y controlar estos modos de razonamiento distintos. En primer lugar, introducimos un modelo teórico basado en el principio del Cuello de Botella de la Información (IB), que formaliza la generalización como el aprendizaje de una representación comprimida y relevante para la tarea, y la memorización como un fallo en la compresión. Basándonos en esta teoría, desarrollamos Dynamic Mode Steering (DMS), un novedoso algoritmo en tiempo de inferencia que comprende dos componentes: (1) un probe lineal ligero y causalmente fundamentado que identifica la dependencia instantánea del modelo en la memorización, y (2) un mecanismo de direccionamiento dinámico de activaciones que impulsa el cálculo del modelo hacia circuitos de generalización preidentificados. Enmarcamos DMS como una forma de decodificación adaptativa y autocontrastiva. Los experimentos en tareas de razonamiento y veracidad demuestran que DMS mejora significativamente la coherencia lógica y la precisión factual, ofreciendo así un enfoque fundamentado para mejorar la fiabilidad de los LLMs.

English

Large Language Models (LLMs) exhibit a troubling duality, capable of both remarkable generalization and brittle, verbatim memorization of their training data. This unpredictability undermines their reliability in high-stakes applications. In this work, we propose a unified framework to understand, identify, and control these distinct reasoning modes. First, we introduce a theoretical model based on the Information Bottleneck (IB) principle, formalizing generalization as the learning of a compressed, task-relevant representation and memorization as a failure to compress. Building on this theory, we develop Dynamic Mode Steering (DMS), a novel inference-time algorithm which comprises two components: (1) a lightweight, causally-grounded linear probe that identifies the model's instantaneous reliance on memorization, and (2) a dynamic activation steering mechanism that nudges the model's computation towards pre-identified generalization circuits. We frame DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning and faithfulness tasks demonstrate that DMS significantly improves logical consistency and factual accuracy, thereby offering a principled approach to enhancing LLM reliability.

Generalización o Memorización: Decodificación Dinámica para la Dirección de Modos

Generalization or Memorization: Dynamic Decoding for Mode Steering

Resumen

Support