기억-압축 주기는 일반화 성능을 향상시킨다
Memorization-Compression Cycles Improve Generalization
May 13, 2025
저자: Fangyuan Yu
cs.AI
초록
우리는 이론적으로 일반화가 데이터 스케일링뿐만 아니라 내부 표현의 압축을 통해서도 개선됨을 증명한다. 이러한 통찰을 실질적으로 적용하기 위해, 우리는 정보 병목 언어 모델링(Information Bottleneck Language Modeling, IBLM) 목적 함수를 제안한다. 이는 언어 모델링을 최적 예측 성능을 유지하면서 표현 엔트로피를 최소화하는 제약 최적화 문제로 재구성한다. 실증적으로, 우리는 대규모 언어 모델(LLM) 사전 학습 과정에서 기억-압축 주기가 나타남을 관찰하였다. 이는 교차 엔트로피와 표현 엔트로피의 측정치인 행렬 기반 엔트로피(Matrix-Based Entropy, MBE) 간의 양/음의 그래디언트 정렬이 진동하는 것으로 확인된다. 이 패턴은 IBLM이 규정한 예측-압축 상충 관계와 밀접하게 일치하며, 생물학적 각성 학습과 수면 통합 간의 교대와도 유사하다. 이러한 관찰에 동기를 받아, 우리는 기억 단계와 압축 단계를 적응적으로 전환하는 학습 알고리즘인 Gated Phase Transition(GAPT)을 제안한다. GPT-2 모델을 FineWeb 데이터셋으로 사전 학습할 때 GAPT를 적용하면 MBE가 50% 감소하고 교차 엔트로피가 4.8% 개선된다. 또한, 산술 곱셈 사전 학습 과제에서 GAPT는 OOD(Out-Of-Distribution) 일반화를 35% 향상시킨다. 치명적 망각(catastrophic forgetting)을 시뮬레이션하도록 설계된 환경에서 GAPT는 표현을 압축하고 분리하여 간섭을 줄이며, 분리 정도가 97% 개선되는 결과를 보인다. 이는 수면 통합의 기능적 역할과 유사한 성과를 보여준다.
English
We prove theoretically that generalization improves not only through data
scaling but also by compressing internal representations. To operationalize
this insight, we introduce the Information Bottleneck Language Modeling (IBLM)
objective, which reframes language modeling as a constrained optimization
problem: minimizing representation entropy subject to optimal prediction
performance. Empirically, we observe an emergent memorization-compression cycle
during LLM pretraining, evidenced by oscillation positive/negative gradient
alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of
representation entropy. This pattern closely mirrors the predictive-compressive
trade-off prescribed by IBLM and also parallels the biological alternation
between awake learning and sleep consolidation. Motivated by this observation,
we propose Gated Phase Transition (GAPT), a training algorithm that adaptively
switches between memorization and compression phases. When applied to GPT-2
pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves
cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining
task on arithmetic multiplication. In a setting designed to simulate
catastrophic forgetting, GAPT reduces interference by compressing and
separating representations, achieving a 97% improvement in separation -
paralleling the functional role of sleep consolidation.Summary
AI-Generated Summary