Циклы запоминания и сжатия улучшают обобщение
Memorization-Compression Cycles Improve Generalization
May 13, 2025
Авторы: Fangyuan Yu
cs.AI
Аннотация
Мы теоретически доказываем, что обобщение улучшается не только за счет масштабирования данных, но и благодаря сжатию внутренних представлений. Чтобы операционализировать это понимание, мы вводим целевую функцию моделирования языка с использованием информационного узкого места (Information Bottleneck Language Modeling, IBLM), которая переформулирует задачу моделирования языка как задачу ограниченной оптимизации: минимизация энтропии представлений при условии оптимальной прогностической производительности. Эмпирически мы наблюдаем возникающий цикл запоминания-сжатия в процессе предварительного обучения крупных языковых моделей (LLM), что подтверждается колебаниями положительного/отрицательного выравнивания градиентов между кросс-энтропией и матричной энтропией (Matrix-Based Entropy, MBE), мерой энтропии представлений. Этот паттерн тесно отражает компромисс между предсказанием и сжатием, предписанный IBLM, а также параллелен биологическому чередованию между обучением в состоянии бодрствования и консолидацией во время сна. Вдохновленные этим наблюдением, мы предлагаем алгоритм обучения Gated Phase Transition (GAPT), который адаптивно переключается между фазами запоминания и сжатия. При применении к предварительному обучению GPT-2 на наборе данных FineWeb, GAPT снижает MBE на 50% и улучшает кросс-энтропию на 4,8%. GAPT улучшает обобщение на данных вне распределения (OOD) на 35% в задаче предварительного обучения на умножении чисел. В условиях, моделирующих катастрофическое забывание, GAPT снижает интерференцию за счет сжатия и разделения представлений, достигая улучшения разделения на 97%, что параллельно функциональной роли консолидации во время сна.
English
We prove theoretically that generalization improves not only through data
scaling but also by compressing internal representations. To operationalize
this insight, we introduce the Information Bottleneck Language Modeling (IBLM)
objective, which reframes language modeling as a constrained optimization
problem: minimizing representation entropy subject to optimal prediction
performance. Empirically, we observe an emergent memorization-compression cycle
during LLM pretraining, evidenced by oscillation positive/negative gradient
alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of
representation entropy. This pattern closely mirrors the predictive-compressive
trade-off prescribed by IBLM and also parallels the biological alternation
between awake learning and sleep consolidation. Motivated by this observation,
we propose Gated Phase Transition (GAPT), a training algorithm that adaptively
switches between memorization and compression phases. When applied to GPT-2
pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves
cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining
task on arithmetic multiplication. In a setting designed to simulate
catastrophic forgetting, GAPT reduces interference by compressing and
separating representations, achieving a 97% improvement in separation -
paralleling the functional role of sleep consolidation.Summary
AI-Generated Summary