ChatPaper.aiChatPaper

Memorisatie-compressiecycli verbeteren generalisatie

Memorization-Compression Cycles Improve Generalization

May 13, 2025
Auteurs: Fangyuan Yu
cs.AI

Samenvatting

We bewijzen theoretisch dat generalisatie niet alleen verbetert door schaalvergroting van data, maar ook door het comprimeren van interne representaties. Om dit inzicht operationeel te maken, introduceren we het Information Bottleneck Language Modeling (IBLM)-doel, dat taalmodellering herformuleert als een geoptimaliseerd beperkingsprobleem: het minimaliseren van representatie-entropie onder voorwaarde van optimale voorspellingsprestaties. Empirisch observeren we een opkomende memorisatie-compressiecyclus tijdens LLM-pre-training, wat blijkt uit de oscillatie van positieve/negatieve gradiëntuitlijning tussen kruis-entropie en Matrix-Based Entropy (MBE), een maat voor representatie-entropie. Dit patroon weerspiegelt nauwkeurig de voorspellings-compressieafweging die door IBLM wordt voorgeschreven en loopt ook parallel met de biologische afwisseling tussen wakker leren en slaapconsolidatie. Gemotiveerd door deze observatie stellen we Gated Phase Transition (GAPT) voor, een trainingsalgoritme dat adaptief schakelt tussen memorisatie- en compressiefasen. Wanneer toegepast op GPT-2-pre-training op de FineWeb-dataset, reduceert GAPT MBE met 50% en verbetert het kruis-entropie met 4,8%. GAPT verbetert OOD-generalizatie met 35% in een pre-trainings taak voor rekenkundige vermenigvuldiging. In een setting die is ontworpen om catastrofaal vergeten te simuleren, vermindert GAPT interferentie door representaties te comprimeren en te scheiden, wat resulteert in een verbetering van 97% in scheiding – wat parallel loopt met de functionele rol van slaapconsolidatie.
English
We prove theoretically that generalization improves not only through data scaling but also by compressing internal representations. To operationalize this insight, we introduce the Information Bottleneck Language Modeling (IBLM) objective, which reframes language modeling as a constrained optimization problem: minimizing representation entropy subject to optimal prediction performance. Empirically, we observe an emergent memorization-compression cycle during LLM pretraining, evidenced by oscillation positive/negative gradient alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of representation entropy. This pattern closely mirrors the predictive-compressive trade-off prescribed by IBLM and also parallels the biological alternation between awake learning and sleep consolidation. Motivated by this observation, we propose Gated Phase Transition (GAPT), a training algorithm that adaptively switches between memorization and compression phases. When applied to GPT-2 pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining task on arithmetic multiplication. In a setting designed to simulate catastrophic forgetting, GAPT reduces interference by compressing and separating representations, achieving a 97% improvement in separation - paralleling the functional role of sleep consolidation.

Summary

AI-Generated Summary

PDF42May 14, 2025