ChatPaper.aiChatPaper

I cicli di memorizzazione-compressione migliorano la generalizzazione

Memorization-Compression Cycles Improve Generalization

May 13, 2025
Autori: Fangyuan Yu
cs.AI

Abstract

Dimostriamo teoricamente che la generalizzazione migliora non solo attraverso il ridimensionamento dei dati, ma anche comprimendo le rappresentazioni interne. Per operazionalizzare questa intuizione, introduciamo l'obiettivo di Information Bottleneck Language Modeling (IBLM), che riformula la modellazione del linguaggio come un problema di ottimizzazione vincolata: minimizzare l'entropia della rappresentazione mantenendo prestazioni predittive ottimali. Empiricamente, osserviamo un ciclo emergente di memorizzazione-compressione durante il pre-addestramento di LLM, evidenziato dall'oscillazione dell'allineamento positivo/negativo del gradiente tra l'entropia incrociata e l'Entropia Basata su Matrice (MBE), una misura dell'entropia della rappresentazione. Questo modello rispecchia da vicino il compromesso predittivo-compressivo prescritto da IBLM e parallelizza anche l'alternanza biologica tra apprendimento durante la veglia e consolidamento durante il sonno. Motivati da questa osservazione, proponiamo Gated Phase Transition (GAPT), un algoritmo di addestramento che passa in modo adattivo tra fasi di memorizzazione e compressione. Quando applicato al pre-addestramento di GPT-2 sul dataset FineWeb, GAPT riduce l'MBE del 50% e migliora l'entropia incrociata del 4,8%. GAPT migliora la generalizzazione OOD del 35% in un'attività di pre-addestramento sulla moltiplicazione aritmetica. In un contesto progettato per simulare l'oblio catastrofico, GAPT riduce l'interferenza comprimendo e separando le rappresentazioni, ottenendo un miglioramento del 97% nella separazione, parallelizzando il ruolo funzionale del consolidamento durante il sonno.
English
We prove theoretically that generalization improves not only through data scaling but also by compressing internal representations. To operationalize this insight, we introduce the Information Bottleneck Language Modeling (IBLM) objective, which reframes language modeling as a constrained optimization problem: minimizing representation entropy subject to optimal prediction performance. Empirically, we observe an emergent memorization-compression cycle during LLM pretraining, evidenced by oscillation positive/negative gradient alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of representation entropy. This pattern closely mirrors the predictive-compressive trade-off prescribed by IBLM and also parallels the biological alternation between awake learning and sleep consolidation. Motivated by this observation, we propose Gated Phase Transition (GAPT), a training algorithm that adaptively switches between memorization and compression phases. When applied to GPT-2 pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining task on arithmetic multiplication. In a setting designed to simulate catastrophic forgetting, GAPT reduces interference by compressing and separating representations, achieving a 97% improvement in separation - paralleling the functional role of sleep consolidation.
PDF52May 14, 2025