Les cycles de mémorisation-compression améliorent la généralisation.

papers.abstract

Nous démontrons théoriquement que la généralisation s'améliore non seulement par la mise à l'échelle des données, mais également par la compression des représentations internes. Pour opérationnaliser cette intuition, nous introduisons l'objectif de modélisation du langage par goulot d'information (Information Bottleneck Language Modeling, IBLM), qui reformule la modélisation du langage comme un problème d'optimisation contraint : minimiser l'entropie des représentations tout en maintenant une performance prédictive optimale. Empiriquement, nous observons un cycle émergent de mémorisation-compression lors du pré-entraînement des modèles de langage de grande taille (LLM), mis en évidence par une oscillation dans l'alignement des gradients positifs/négatifs entre l'entropie croisée et l'entropie basée sur les matrices (Matrix-Based Entropy, MBE), une mesure de l'entropie des représentations. Ce motif reflète étroitement le compromis prédictif-compressif prescrit par l'IBLM et fait également écho à l'alternance biologique entre l'apprentissage en état d'éveil et la consolidation pendant le sommeil. Motivés par cette observation, nous proposons la Transition de Phase à Porte (Gated Phase Transition, GAPT), un algorithme d'entraînement qui commute de manière adaptative entre les phases de mémorisation et de compression. Appliqué au pré-entraînement de GPT-2 sur le jeu de données FineWeb, GAPT réduit l'MBE de 50 % et améliore l'entropie croisée de 4,8 %. GAPT améliore la généralisation hors distribution (OOD) de 35 % dans une tâche de pré-entraînement sur la multiplication arithmétique. Dans un scénario conçu pour simuler l'oubli catastrophique, GAPT réduit l'interférence en compressant et en séparant les représentations, obtenant une amélioration de 97 % dans la séparation – parallèle au rôle fonctionnel de la consolidation pendant le sommeil.

English

We prove theoretically that generalization improves not only through data scaling but also by compressing internal representations. To operationalize this insight, we introduce the Information Bottleneck Language Modeling (IBLM) objective, which reframes language modeling as a constrained optimization problem: minimizing representation entropy subject to optimal prediction performance. Empirically, we observe an emergent memorization-compression cycle during LLM pretraining, evidenced by oscillation positive/negative gradient alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of representation entropy. This pattern closely mirrors the predictive-compressive trade-off prescribed by IBLM and also parallels the biological alternation between awake learning and sleep consolidation. Motivated by this observation, we propose Gated Phase Transition (GAPT), a training algorithm that adaptively switches between memorization and compression phases. When applied to GPT-2 pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining task on arithmetic multiplication. In a setting designed to simulate catastrophic forgetting, GAPT reduces interference by compressing and separating representations, achieving a 97% improvement in separation - paralleling the functional role of sleep consolidation.

Les cycles de mémorisation-compression améliorent la généralisation.

Memorization-Compression Cycles Improve Generalization

papers.abstract

Support