언어 모델 사전 학습을 위한 점진적 잔여 웜업

초록

트랜스포머 아키텍처는 대부분의 현대 대규모 언어 모델의 핵심을 이루므로, 이들의 사전 학습 안정성과 수렴 속도는 핵심적인 관심사입니다. 순차적으로 쌓인 계층 간의 논리적 의존성에 착안하여, 본 논문에서는 언어 모델 사전 학습을 위한 점진적 잔차 워밍업(Progressive Residual Warmup, ProRes) 방법을 제안합니다. ProRes는 "초기 계층이 먼저 학습한다"는 철학을 구현하며, 각 계층의 잔차 연결에 0에서 1로 점진적으로 증가하는 스칼라 값을 곱하고, 더 깊은 계층일수록 더 많은 워밍업 단계를 거치게 합니다. 이를 통해 더 깊은 계층들은 학습에 기여하기 전에 초기 계층들이 더 안정된 상태에 도달할 때까지 대기하게 됩니다. 다양한 모델 규모와 정규화 및 초기화 방법에 걸친 사전 학습 실험을 통해 ProRes의 효과를 입증합니다. 종합적인 분석 결과, ProRes는 사전 학습을 안정화할 뿐만 아니라 고유한 최적화 경로를 도입하여 더 빠른 수렴, 더 강력한 일반화 성능 및 향상된 다운스트림 작업 성능으로 이어짐을 보여줍니다. 코드는 https://github.com/dandingsky/ProRes에서 확인할 수 있습니다.

English

Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.

언어 모델 사전 학습을 위한 점진적 잔여 웜업

Progressive Residual Warmup for Language Model Pretraining

초록

Support