Les cycles de mémorisation-compression améliorent la généralisation.
Memorization-Compression Cycles Improve Generalization
May 13, 2025
papers.authors: Fangyuan Yu
cs.AI
papers.abstract
Nous démontrons théoriquement que la généralisation s'améliore non seulement par la mise à l'échelle des données, mais également par la compression des représentations internes. Pour opérationnaliser cette intuition, nous introduisons l'objectif de modélisation du langage par goulot d'information (Information Bottleneck Language Modeling, IBLM), qui reformule la modélisation du langage comme un problème d'optimisation contraint : minimiser l'entropie des représentations tout en maintenant une performance prédictive optimale. Empiriquement, nous observons un cycle émergent de mémorisation-compression lors du pré-entraînement des modèles de langage de grande taille (LLM), mis en évidence par une oscillation dans l'alignement des gradients positifs/négatifs entre l'entropie croisée et l'entropie basée sur les matrices (Matrix-Based Entropy, MBE), une mesure de l'entropie des représentations. Ce motif reflète étroitement le compromis prédictif-compressif prescrit par l'IBLM et fait également écho à l'alternance biologique entre l'apprentissage en état d'éveil et la consolidation pendant le sommeil. Motivés par cette observation, nous proposons la Transition de Phase à Porte (Gated Phase Transition, GAPT), un algorithme d'entraînement qui commute de manière adaptative entre les phases de mémorisation et de compression. Appliqué au pré-entraînement de GPT-2 sur le jeu de données FineWeb, GAPT réduit l'MBE de 50 % et améliore l'entropie croisée de 4,8 %. GAPT améliore la généralisation hors distribution (OOD) de 35 % dans une tâche de pré-entraînement sur la multiplication arithmétique. Dans un scénario conçu pour simuler l'oubli catastrophique, GAPT réduit l'interférence en compressant et en séparant les représentations, obtenant une amélioration de 97 % dans la séparation – parallèle au rôle fonctionnel de la consolidation pendant le sommeil.
English
We prove theoretically that generalization improves not only through data
scaling but also by compressing internal representations. To operationalize
this insight, we introduce the Information Bottleneck Language Modeling (IBLM)
objective, which reframes language modeling as a constrained optimization
problem: minimizing representation entropy subject to optimal prediction
performance. Empirically, we observe an emergent memorization-compression cycle
during LLM pretraining, evidenced by oscillation positive/negative gradient
alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of
representation entropy. This pattern closely mirrors the predictive-compressive
trade-off prescribed by IBLM and also parallels the biological alternation
between awake learning and sleep consolidation. Motivated by this observation,
we propose Gated Phase Transition (GAPT), a training algorithm that adaptively
switches between memorization and compression phases. When applied to GPT-2
pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves
cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining
task on arithmetic multiplication. In a setting designed to simulate
catastrophic forgetting, GAPT reduces interference by compressing and
separating representations, achieving a 97% improvement in separation -
paralleling the functional role of sleep consolidation.