I cicli di memorizzazione-compressione migliorano la generalizzazione
Memorization-Compression Cycles Improve Generalization
May 13, 2025
Autori: Fangyuan Yu
cs.AI
Abstract
Dimostriamo teoricamente che la generalizzazione migliora non solo attraverso il ridimensionamento dei dati, ma anche comprimendo le rappresentazioni interne. Per operazionalizzare questa intuizione, introduciamo l'obiettivo di Information Bottleneck Language Modeling (IBLM), che riformula la modellazione del linguaggio come un problema di ottimizzazione vincolata: minimizzare l'entropia della rappresentazione mantenendo prestazioni predittive ottimali. Empiricamente, osserviamo un ciclo emergente di memorizzazione-compressione durante il pre-addestramento di LLM, evidenziato dall'oscillazione dell'allineamento positivo/negativo del gradiente tra l'entropia incrociata e l'Entropia Basata su Matrice (MBE), una misura dell'entropia della rappresentazione. Questo modello rispecchia da vicino il compromesso predittivo-compressivo prescritto da IBLM e parallelizza anche l'alternanza biologica tra apprendimento durante la veglia e consolidamento durante il sonno. Motivati da questa osservazione, proponiamo Gated Phase Transition (GAPT), un algoritmo di addestramento che passa in modo adattivo tra fasi di memorizzazione e compressione. Quando applicato al pre-addestramento di GPT-2 sul dataset FineWeb, GAPT riduce l'MBE del 50% e migliora l'entropia incrociata del 4,8%. GAPT migliora la generalizzazione OOD del 35% in un'attività di pre-addestramento sulla moltiplicazione aritmetica. In un contesto progettato per simulare l'oblio catastrofico, GAPT riduce l'interferenza comprimendo e separando le rappresentazioni, ottenendo un miglioramento del 97% nella separazione, parallelizzando il ruolo funzionale del consolidamento durante il sonno.
English
We prove theoretically that generalization improves not only through data
scaling but also by compressing internal representations. To operationalize
this insight, we introduce the Information Bottleneck Language Modeling (IBLM)
objective, which reframes language modeling as a constrained optimization
problem: minimizing representation entropy subject to optimal prediction
performance. Empirically, we observe an emergent memorization-compression cycle
during LLM pretraining, evidenced by oscillation positive/negative gradient
alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of
representation entropy. This pattern closely mirrors the predictive-compressive
trade-off prescribed by IBLM and also parallels the biological alternation
between awake learning and sleep consolidation. Motivated by this observation,
we propose Gated Phase Transition (GAPT), a training algorithm that adaptively
switches between memorization and compression phases. When applied to GPT-2
pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves
cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining
task on arithmetic multiplication. In a setting designed to simulate
catastrophic forgetting, GAPT reduces interference by compressing and
separating representations, achieving a 97% improvement in separation -
paralleling the functional role of sleep consolidation.