Los Ciclos de Memorización-Compresión Mejoran la Generalización

Resumen

Demostramos teóricamente que la generalización mejora no solo mediante el escalado de datos, sino también a través de la compresión de representaciones internas. Para operacionalizar esta idea, introducimos el objetivo de Modelado de Lenguaje con Cuello de Botella de Información (IBLM, por sus siglas en inglés), que reformula el modelado de lenguaje como un problema de optimización restringida: minimizar la entropía de las representaciones sujeto a un rendimiento predictivo óptimo. Empíricamente, observamos un ciclo emergente de memorización-compresión durante el preentrenamiento de modelos de lenguaje grandes (LLM), evidenciado por la oscilación en la alineación positiva/negativa de los gradientes entre la entropía cruzada y la Entropía Basada en Matrices (MBE, por sus siglas en inglés), una medida de la entropía de las representaciones. Este patrón refleja estrechamente el equilibrio predictivo-compresivo prescrito por IBLM y también se asemeja a la alternancia biológica entre el aprendizaje en estado de vigilia y la consolidación durante el sueño. Motivados por esta observación, proponemos la Transición de Fase con Compuerta (GAPT, por sus siglas en inglés), un algoritmo de entrenamiento que cambia de manera adaptativa entre fases de memorización y compresión. Al aplicarlo al preentrenamiento de GPT-2 en el conjunto de datos FineWeb, GAPT reduce la MBE en un 50% y mejora la entropía cruzada en un 4.8%. Además, GAPT mejora la generalización fuera de distribución (OOD) en un 35% en una tarea de preentrenamiento de multiplicación aritmética. En un escenario diseñado para simular el olvido catastrófico, GAPT reduce la interferencia al comprimir y separar las representaciones, logrando una mejora del 97% en la separación, lo que se asemeja al papel funcional de la consolidación durante el sueño.

English

We prove theoretically that generalization improves not only through data scaling but also by compressing internal representations. To operationalize this insight, we introduce the Information Bottleneck Language Modeling (IBLM) objective, which reframes language modeling as a constrained optimization problem: minimizing representation entropy subject to optimal prediction performance. Empirically, we observe an emergent memorization-compression cycle during LLM pretraining, evidenced by oscillation positive/negative gradient alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of representation entropy. This pattern closely mirrors the predictive-compressive trade-off prescribed by IBLM and also parallels the biological alternation between awake learning and sleep consolidation. Motivated by this observation, we propose Gated Phase Transition (GAPT), a training algorithm that adaptively switches between memorization and compression phases. When applied to GPT-2 pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining task on arithmetic multiplication. In a setting designed to simulate catastrophic forgetting, GAPT reduces interference by compressing and separating representations, achieving a 97% improvement in separation - paralleling the functional role of sleep consolidation.

Los Ciclos de Memorización-Compresión Mejoran la Generalización

Memorization-Compression Cycles Improve Generalization

Resumen

Support