Memorierungs-Kompressions-Zyklen verbessern die Generalisierung.

papers.abstract

Wir beweisen theoretisch, dass sich die Generalisierung nicht nur durch die Skalierung von Daten verbessert, sondern auch durch die Kompression interner Repräsentationen. Um diese Erkenntnis praktisch umzusetzen, führen wir das Information Bottleneck Language Modeling (IBLM)-Ziel ein, das Sprachmodellierung als ein eingeschränktes Optimierungsproblem neu definiert: die Minimierung der Repräsentationsentropie unter der Bedingung optimaler Vorhersageleistung. Empirisch beobachten wir einen emergenten Memorierungs-Kompressions-Zyklus während des LLM-Pretrainings, der durch die Oszillation positiver/negativer Gradientenausrichtung zwischen Kreuzentropie und Matrix-Based Entropy (MBE), einem Maß für die Repräsentationsentropie, belegt wird. Dieses Muster spiegelt eng den von IBLM vorgeschriebenen Vorhersage-Kompressions-Kompromiss wider und ähnelt auch der biologischen Abwechslung zwischen wachem Lernen und Schlafkonsolidierung. Motiviert durch diese Beobachtung schlagen wir Gated Phase Transition (GAPT) vor, einen Trainingsalgorithmus, der adaptiv zwischen Memorierungs- und Kompressionsphasen wechselt. Bei der Anwendung auf das GPT-2-Pretraining mit dem FineWeb-Datensatz reduziert GAPT die MBE um 50 % und verbessert die Kreuzentropie um 4,8 %. GAPT verbessert die OOD-Generalisierung um 35 % in einer Pretraining-Aufgabe zur arithmetischen Multiplikation. In einem Setting, das darauf ausgelegt ist, katastrophales Vergessen zu simulieren, reduziert GAPT die Interferenz durch Kompression und Trennung von Repräsentationen und erreicht eine Verbesserung der Trennung um 97 % – was der funktionalen Rolle der Schlafkonsolidierung entspricht.

English

We prove theoretically that generalization improves not only through data scaling but also by compressing internal representations. To operationalize this insight, we introduce the Information Bottleneck Language Modeling (IBLM) objective, which reframes language modeling as a constrained optimization problem: minimizing representation entropy subject to optimal prediction performance. Empirically, we observe an emergent memorization-compression cycle during LLM pretraining, evidenced by oscillation positive/negative gradient alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of representation entropy. This pattern closely mirrors the predictive-compressive trade-off prescribed by IBLM and also parallels the biological alternation between awake learning and sleep consolidation. Motivated by this observation, we propose Gated Phase Transition (GAPT), a training algorithm that adaptively switches between memorization and compression phases. When applied to GPT-2 pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining task on arithmetic multiplication. In a setting designed to simulate catastrophic forgetting, GAPT reduces interference by compressing and separating representations, achieving a 97% improvement in separation - paralleling the functional role of sleep consolidation.

Memorierungs-Kompressions-Zyklen verbessern die Generalisierung.

Memorization-Compression Cycles Improve Generalization

papers.abstract

Support