Los Ciclos de Memorización-Compresión Mejoran la Generalización
Memorization-Compression Cycles Improve Generalization
May 13, 2025
Autores: Fangyuan Yu
cs.AI
Resumen
Demostramos teóricamente que la generalización mejora no solo mediante el escalado de datos, sino también a través de la compresión de representaciones internas. Para operacionalizar esta idea, introducimos el objetivo de Modelado de Lenguaje con Cuello de Botella de Información (IBLM, por sus siglas en inglés), que reformula el modelado de lenguaje como un problema de optimización restringida: minimizar la entropía de las representaciones sujeto a un rendimiento predictivo óptimo. Empíricamente, observamos un ciclo emergente de memorización-compresión durante el preentrenamiento de modelos de lenguaje grandes (LLM), evidenciado por la oscilación en la alineación positiva/negativa de los gradientes entre la entropía cruzada y la Entropía Basada en Matrices (MBE, por sus siglas en inglés), una medida de la entropía de las representaciones. Este patrón refleja estrechamente el equilibrio predictivo-compresivo prescrito por IBLM y también se asemeja a la alternancia biológica entre el aprendizaje en estado de vigilia y la consolidación durante el sueño. Motivados por esta observación, proponemos la Transición de Fase con Compuerta (GAPT, por sus siglas en inglés), un algoritmo de entrenamiento que cambia de manera adaptativa entre fases de memorización y compresión. Al aplicarlo al preentrenamiento de GPT-2 en el conjunto de datos FineWeb, GAPT reduce la MBE en un 50% y mejora la entropía cruzada en un 4.8%. Además, GAPT mejora la generalización fuera de distribución (OOD) en un 35% en una tarea de preentrenamiento de multiplicación aritmética. En un escenario diseñado para simular el olvido catastrófico, GAPT reduce la interferencia al comprimir y separar las representaciones, logrando una mejora del 97% en la separación, lo que se asemeja al papel funcional de la consolidación durante el sueño.
English
We prove theoretically that generalization improves not only through data
scaling but also by compressing internal representations. To operationalize
this insight, we introduce the Information Bottleneck Language Modeling (IBLM)
objective, which reframes language modeling as a constrained optimization
problem: minimizing representation entropy subject to optimal prediction
performance. Empirically, we observe an emergent memorization-compression cycle
during LLM pretraining, evidenced by oscillation positive/negative gradient
alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of
representation entropy. This pattern closely mirrors the predictive-compressive
trade-off prescribed by IBLM and also parallels the biological alternation
between awake learning and sleep consolidation. Motivated by this observation,
we propose Gated Phase Transition (GAPT), a training algorithm that adaptively
switches between memorization and compression phases. When applied to GPT-2
pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves
cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining
task on arithmetic multiplication. In a setting designed to simulate
catastrophic forgetting, GAPT reduces interference by compressing and
separating representations, achieving a 97% improvement in separation -
paralleling the functional role of sleep consolidation.