대규모 언어 모델의 지속적 사전 학습에서의 학습 역학
Learning Dynamics in Continual Pre-Training for Large Language Models
May 12, 2025
저자: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
cs.AI
초록
지속적 사전 학습(Continual Pre-Training, CPT)은 강력한 기반 모델을 특정 하위 작업에 적용하기 위한 인기 있고 효과적인 방법으로 자리 잡았습니다. 본 연구에서는 대규모 언어 모델에 대한 CPT 과정 전반의 학습 동역학을 탐구합니다. 특히, 각 학습 단계에서 일반적인 성능과 하위 도메인 성능이 어떻게 진화하는지에 초점을 맞추며, 도메인 성능은 검증 손실을 통해 측정됩니다. 우리는 CPT 손실 곡선이 근본적으로 하나의 곡선에서 다른 숨겨진 곡선으로의 전환을 특징짓는다는 것을 관찰했으며, 이는 분포 변화와 학습률 감소의 효과를 분리하여 설명할 수 있음을 발견했습니다. 우리는 이 두 요소를 결합한 CPT 스케일링 법칙을 도출하여, CPT 과정에서의 모든 (지속적인) 학습 단계와 다양한 학습률 스케줄(LRS)에 걸친 손실을 예측할 수 있게 했습니다. 우리의 공식은 CPT에서의 손실 잠재력, 최대 학습률, 학습 단계, 재생 비율 등 여러 중요한 요소에 대한 포괄적인 이해를 제공합니다. 더 나아가, 우리의 접근 방식은 일반적인 성능과 도메인 특화 성능의 균형을 맞추는 등 다양한 CPT 목표에 맞춰 학습 하이퍼파라미터를 맞춤화하는 데 적응할 수 있습니다. 광범위한 실험을 통해 우리의 스케일링 법칙이 다양한 CPT 데이터셋과 학습 하이퍼파라미터에 걸쳐 유효함을 입증했습니다.
English
Continual Pre-Training (CPT) has become a popular and effective method to
apply strong foundation models to specific downstream tasks. In this work, we
explore the learning dynamics throughout the CPT process for large language
models. We specifically focus on how general and downstream domain performance
evolves at each training step, with domain performance measured via validation
losses. We have observed that the CPT loss curve fundamentally characterizes
the transition from one curve to another hidden curve, and could be described
by decoupling the effects of distribution shift and learning rate annealing. We
derive a CPT scaling law that combines the two factors, enabling the prediction
of loss at any (continual) training steps and across learning rate schedules
(LRS) in CPT. Our formulation presents a comprehensive understanding of several
critical factors in CPT, including loss potential, peak learning rate, training
steps, replay ratio, etc. Moreover, our approach can be adapted to customize
training hyper-parameters to different CPT goals such as balancing general and
domain-specific performance. Extensive experiments demonstrate that our scaling
law holds across various CPT datasets and training hyper-parameters.Summary
AI-Generated Summary