ChatPaper.aiChatPaper

사전 학습된 체크포인트 재활용: 효율적인 대규모 언어 모델 사전 학습을 위한 Mixture-of-Experts의 직교적 성장

Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training

October 9, 2025
저자: Ruizhe Wang, Yucheng Ding, Xiao Liu, Yaoxiang Wang, Peng Cheng, Baining Guo, Zhengjun Zha, Yeyun Gong
cs.AI

초록

대규모 언어 모델(Large Language Model)의 사전 학습에 필요한 계산 비용이 급격히 증가함에 따라 더 효율적인 접근 방식이 요구되고 있습니다. 기존에 잘 학습된 체크포인트에 상당한 계산 비용이 투입되었음에도 불구하고, 엔지니어링적 제약이나 모델 용량의 한계로 인해 많은 체크포인트가 제대로 활용되지 못하고 있습니다. 이러한 "매몰 비용"을 효율적으로 재활용하기 위해, 우리는 사전 학습된 체크포인트의 매개변수 수를 확장하고 추가 학습을 진행하는 방식의 재활용을 제안합니다. 특히, 수렴된 Mixture-of-Experts 모델에 적합한 직교적 성장 방법을 제안합니다: 깊이 성장을 위한 계층 간 복사와, 너비 성장을 위한 노이즈 주입을 통한 전문가 복제입니다. 체크포인트 시퀀스에서 이러한 성장의 최적 시점을 결정하기 위해, 우리는 포괄적인 스케일링 실험을 수행하였고, 최종 정확도가 매몰 비용의 양과 강한 양의 상관관계를 보인다는 것을 발견했습니다. 이는 더 많은 선행 투자가 더 나은 성능으로 이어진다는 것을 나타냅니다. 우리는 이 접근 방식을 700억 개의 매개변수와 1조 개 이상의 학습 토큰을 가진 모델로 확장하여, 동일한 추가 계산 예산 하에서 처음부터 학습하는 것보다 10.66%의 정확도 향상을 달성했습니다. 우리의 체크포인트 재활용 접근법은 경제적으로 효율적인 대규모 언어 모델 사전 학습의 기반을 마련합니다.
English
The rapidly increasing computational cost of pretraining Large Language Models necessitates more efficient approaches. Numerous computational costs have been invested in existing well-trained checkpoints, but many of them remain underutilized due to engineering constraints or limited model capacity. To efficiently reuse this "sunk" cost, we propose to recycle pretrained checkpoints by expanding their parameter counts and continuing training. We propose orthogonal growth method well-suited for converged Mixture-of-Experts model: interpositional layer copying for depth growth and expert duplication with injected noise for width growth. To determine the optimal timing for such growth across checkpoints sequences, we perform comprehensive scaling experiments revealing that the final accuracy has a strong positive correlation with the amount of sunk cost, indicating that greater prior investment leads to better performance. We scale our approach to models with 70B parameters and over 1T training tokens, achieving 10.66% accuracy gain over training from scratch under the same additional compute budget. Our checkpoint recycling approach establishes a foundation for economically efficient large language model pretraining.
PDF52October 10, 2025