Generalização ou Memorização: Decodagem Dinâmica para Direcionamento de Modo
Generalization or Memorization: Dynamic Decoding for Mode Steering
October 25, 2025
Autores: Xuanming Zhang
cs.AI
Resumo
Os Grandes Modelos de Linguagem (LLMs) exibem uma dualidade preocupante, sendo capazes tanto de generalização notável quanto de memorização literal e frágil dos seus dados de treinamento. Esta imprevisibilidade compromete a sua confiabilidade em aplicações de alto risco. Neste trabalho, propomos um quadro unificado para compreender, identificar e controlar estes modos distintos de raciocínio. Primeiro, introduzimos um modelo teórico baseado no princípio do *Information Bottleneck* (IB), formalizando a generalização como a aprendizagem de uma representação comprimida e relevante para a tarefa, e a memorização como uma falha em comprimir. Com base nesta teoria, desenvolvemos o *Dynamic Mode Steering* (DMS), um algoritmo novo aplicado no momento da inferência que compreende dois componentes: (1) uma sonda linear leve e causalmente fundamentada que identifica a dependência instantânea do modelo na memorização, e (2) um mecanismo de orientação dinâmica de ativações que direciona a computação do modelo para circuitos de generalização pré-identificados. Enquadramos o DMS como uma forma de decodagem adaptativa e autocontrastiva. Experiências em tarefas de raciocínio e fidedignidade demonstram que o DMS melhora significativamente a consistência lógica e a precisão factual, oferecendo assim uma abordagem fundamentada para aumentar a confiabilidade dos LLMs.
English
Large Language Models (LLMs) exhibit a troubling duality, capable of both
remarkable generalization and brittle, verbatim memorization of their training
data. This unpredictability undermines their reliability in high-stakes
applications. In this work, we propose a unified framework to understand,
identify, and control these distinct reasoning modes. First, we introduce a
theoretical model based on the Information Bottleneck (IB) principle,
formalizing generalization as the learning of a compressed, task-relevant
representation and memorization as a failure to compress. Building on this
theory, we develop Dynamic Mode Steering (DMS), a novel inference-time
algorithm which comprises two components: (1) a lightweight, causally-grounded
linear probe that identifies the model's instantaneous reliance on
memorization, and (2) a dynamic activation steering mechanism that nudges the
model's computation towards pre-identified generalization circuits. We frame
DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning
and faithfulness tasks demonstrate that DMS significantly improves logical
consistency and factual accuracy, thereby offering a principled approach to
enhancing LLM reliability.