Ciclos de Memorização-Compressão Melhoram a Generalização
Memorization-Compression Cycles Improve Generalization
May 13, 2025
Autores: Fangyuan Yu
cs.AI
Resumo
Provamos teoricamente que a generalização melhora não apenas através da escala de dados, mas também pela compressão de representações internas. Para operacionalizar essa percepção, introduzimos o objetivo de Modelagem de Linguagem com Gargalo de Informação (Information Bottleneck Language Modeling - IBLM), que reformula a modelagem de linguagem como um problema de otimização restrita: minimizar a entropia da representação sujeita ao desempenho preditivo ideal. Empiricamente, observamos um ciclo emergente de memorização-compressão durante o pré-treinamento de LLMs, evidenciado pela oscilação do alinhamento positivo/negativo do gradiente entre a entropia cruzada e a Entropia Baseada em Matriz (Matrix-Based Entropy - MBE), uma medida da entropia da representação. Esse padrão reflete de perto o trade-off preditivo-compressivo prescrito pelo IBLM e também paraleliza a alternância biológica entre aprendizado acordado e consolidação durante o sono. Motivados por essa observação, propomos a Transição de Fase Controlada (Gated Phase Transition - GAPT), um algoritmo de treinamento que alterna adaptativamente entre fases de memorização e compressão. Quando aplicado ao pré-treinamento do GPT-2 no conjunto de dados FineWeb, o GAPT reduz a MBE em 50% e melhora a entropia cruzada em 4,8%. O GAPT melhora a generalização fora da distribuição (OOD) em 35% em uma tarefa de pré-treinamento de multiplicação aritmética. Em um cenário projetado para simular o esquecimento catastrófico, o GAPT reduz a interferência ao comprimir e separar representações, alcançando uma melhoria de 97% na separação - paralelizando o papel funcional da consolidação durante o sono.
English
We prove theoretically that generalization improves not only through data
scaling but also by compressing internal representations. To operationalize
this insight, we introduce the Information Bottleneck Language Modeling (IBLM)
objective, which reframes language modeling as a constrained optimization
problem: minimizing representation entropy subject to optimal prediction
performance. Empirically, we observe an emergent memorization-compression cycle
during LLM pretraining, evidenced by oscillation positive/negative gradient
alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of
representation entropy. This pattern closely mirrors the predictive-compressive
trade-off prescribed by IBLM and also parallels the biological alternation
between awake learning and sleep consolidation. Motivated by this observation,
we propose Gated Phase Transition (GAPT), a training algorithm that adaptively
switches between memorization and compression phases. When applied to GPT-2
pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves
cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining
task on arithmetic multiplication. In a setting designed to simulate
catastrophic forgetting, GAPT reduces interference by compressing and
separating representations, achieving a 97% improvement in separation -
paralleling the functional role of sleep consolidation.