Memorisatie-compressiecycli verbeteren generalisatie
Memorization-Compression Cycles Improve Generalization
May 13, 2025
Auteurs: Fangyuan Yu
cs.AI
Samenvatting
We bewijzen theoretisch dat generalisatie niet alleen verbetert door schaalvergroting van data, maar ook door het comprimeren van interne representaties. Om dit inzicht operationeel te maken, introduceren we het Information Bottleneck Language Modeling (IBLM)-doel, dat taalmodellering herformuleert als een geoptimaliseerd beperkingsprobleem: het minimaliseren van representatie-entropie onder voorwaarde van optimale voorspellingsprestaties. Empirisch observeren we een opkomende memorisatie-compressiecyclus tijdens LLM-pre-training, wat blijkt uit de oscillatie van positieve/negatieve gradiëntuitlijning tussen kruis-entropie en Matrix-Based Entropy (MBE), een maat voor representatie-entropie. Dit patroon weerspiegelt nauwkeurig de voorspellings-compressieafweging die door IBLM wordt voorgeschreven en loopt ook parallel met de biologische afwisseling tussen wakker leren en slaapconsolidatie. Gemotiveerd door deze observatie stellen we Gated Phase Transition (GAPT) voor, een trainingsalgoritme dat adaptief schakelt tussen memorisatie- en compressiefasen. Wanneer toegepast op GPT-2-pre-training op de FineWeb-dataset, reduceert GAPT MBE met 50% en verbetert het kruis-entropie met 4,8%. GAPT verbetert OOD-generalizatie met 35% in een pre-trainings taak voor rekenkundige vermenigvuldiging. In een setting die is ontworpen om catastrofaal vergeten te simuleren, vermindert GAPT interferentie door representaties te comprimeren en te scheiden, wat resulteert in een verbetering van 97% in scheiding – wat parallel loopt met de functionele rol van slaapconsolidatie.
English
We prove theoretically that generalization improves not only through data
scaling but also by compressing internal representations. To operationalize
this insight, we introduce the Information Bottleneck Language Modeling (IBLM)
objective, which reframes language modeling as a constrained optimization
problem: minimizing representation entropy subject to optimal prediction
performance. Empirically, we observe an emergent memorization-compression cycle
during LLM pretraining, evidenced by oscillation positive/negative gradient
alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of
representation entropy. This pattern closely mirrors the predictive-compressive
trade-off prescribed by IBLM and also parallels the biological alternation
between awake learning and sleep consolidation. Motivated by this observation,
we propose Gated Phase Transition (GAPT), a training algorithm that adaptively
switches between memorization and compression phases. When applied to GPT-2
pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves
cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining
task on arithmetic multiplication. In a setting designed to simulate
catastrophic forgetting, GAPT reduces interference by compressing and
separating representations, achieving a 97% improvement in separation -
paralleling the functional role of sleep consolidation.Summary
AI-Generated Summary