ChatPaper.aiChatPaper

記憶圧縮サイクルは汎化性能を向上させる

Memorization-Compression Cycles Improve Generalization

May 13, 2025
著者: Fangyuan Yu
cs.AI

要旨

理論的に、一般化がデータスケーリングだけでなく、内部表現の圧縮によっても向上することを証明します。この洞察を実践するために、情報ボトルネック言語モデリング(IBLM)目的関数を導入します。これは、言語モデリングを制約付き最適化問題として再定義するものです:最適な予測性能を維持しつつ、表現エントロピーを最小化します。実験的には、LLMの事前学習中に、記憶化と圧縮のサイクルが自然発生することを観察しました。これは、クロスエントロピーと表現エントロピーの尺度である行列ベースエントロピー(MBE)の間で、正/負の勾配整合が振動する形で現れます。このパターンは、IBLMが示す予測と圧縮のトレードオフに密接に対応し、また、生物学的な覚醒学習と睡眠による記憶固定の交互作用にも類似しています。この観察に基づき、記憶化フェーズと圧縮フェーズを適応的に切り替える訓練アルゴリズムであるGated Phase Transition(GAPT)を提案します。FineWebデータセットを用いたGPT-2の事前学習にGAPTを適用すると、MBEが50%減少し、クロスエントロピーが4.8%改善されました。また、算術乗算の事前学習タスクにおいて、OOD一般化が35%向上しました。さらに、破滅的忘却をシミュレートする設定では、GAPTが表現を圧縮・分離することで干渉を軽減し、分離度が97%向上しました。これは、睡眠による記憶固定の機能的な役割に類似しています。
English
We prove theoretically that generalization improves not only through data scaling but also by compressing internal representations. To operationalize this insight, we introduce the Information Bottleneck Language Modeling (IBLM) objective, which reframes language modeling as a constrained optimization problem: minimizing representation entropy subject to optimal prediction performance. Empirically, we observe an emergent memorization-compression cycle during LLM pretraining, evidenced by oscillation positive/negative gradient alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of representation entropy. This pattern closely mirrors the predictive-compressive trade-off prescribed by IBLM and also parallels the biological alternation between awake learning and sleep consolidation. Motivated by this observation, we propose Gated Phase Transition (GAPT), a training algorithm that adaptively switches between memorization and compression phases. When applied to GPT-2 pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining task on arithmetic multiplication. In a setting designed to simulate catastrophic forgetting, GAPT reduces interference by compressing and separating representations, achieving a 97% improvement in separation - paralleling the functional role of sleep consolidation.

Summary

AI-Generated Summary

PDF32May 14, 2025