Memorierungs-Kompressions-Zyklen verbessern die Generalisierung.
Memorization-Compression Cycles Improve Generalization
May 13, 2025
papers.authors: Fangyuan Yu
cs.AI
papers.abstract
Wir beweisen theoretisch, dass sich die Generalisierung nicht nur durch die Skalierung von Daten verbessert, sondern auch durch die Kompression interner Repräsentationen. Um diese Erkenntnis praktisch umzusetzen, führen wir das Information Bottleneck Language Modeling (IBLM)-Ziel ein, das Sprachmodellierung als ein eingeschränktes Optimierungsproblem neu definiert: die Minimierung der Repräsentationsentropie unter der Bedingung optimaler Vorhersageleistung. Empirisch beobachten wir einen emergenten Memorierungs-Kompressions-Zyklus während des LLM-Pretrainings, der durch die Oszillation positiver/negativer Gradientenausrichtung zwischen Kreuzentropie und Matrix-Based Entropy (MBE), einem Maß für die Repräsentationsentropie, belegt wird. Dieses Muster spiegelt eng den von IBLM vorgeschriebenen Vorhersage-Kompressions-Kompromiss wider und ähnelt auch der biologischen Abwechslung zwischen wachem Lernen und Schlafkonsolidierung. Motiviert durch diese Beobachtung schlagen wir Gated Phase Transition (GAPT) vor, einen Trainingsalgorithmus, der adaptiv zwischen Memorierungs- und Kompressionsphasen wechselt. Bei der Anwendung auf das GPT-2-Pretraining mit dem FineWeb-Datensatz reduziert GAPT die MBE um 50 % und verbessert die Kreuzentropie um 4,8 %. GAPT verbessert die OOD-Generalisierung um 35 % in einer Pretraining-Aufgabe zur arithmetischen Multiplikation. In einem Setting, das darauf ausgelegt ist, katastrophales Vergessen zu simulieren, reduziert GAPT die Interferenz durch Kompression und Trennung von Repräsentationen und erreicht eine Verbesserung der Trennung um 97 % – was der funktionalen Rolle der Schlafkonsolidierung entspricht.
English
We prove theoretically that generalization improves not only through data
scaling but also by compressing internal representations. To operationalize
this insight, we introduce the Information Bottleneck Language Modeling (IBLM)
objective, which reframes language modeling as a constrained optimization
problem: minimizing representation entropy subject to optimal prediction
performance. Empirically, we observe an emergent memorization-compression cycle
during LLM pretraining, evidenced by oscillation positive/negative gradient
alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of
representation entropy. This pattern closely mirrors the predictive-compressive
trade-off prescribed by IBLM and also parallels the biological alternation
between awake learning and sleep consolidation. Motivated by this observation,
we propose Gated Phase Transition (GAPT), a training algorithm that adaptively
switches between memorization and compression phases. When applied to GPT-2
pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves
cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining
task on arithmetic multiplication. In a setting designed to simulate
catastrophic forgetting, GAPT reduces interference by compressing and
separating representations, achieving a 97% improvement in separation -
paralleling the functional role of sleep consolidation.