대규모 언어 모델 사전 학습에서의 모델 병합
Model Merging in Pre-training of Large Language Models
May 17, 2025
저자: Yunshui Li, Yiyuan Ma, Shen Yan, Chaoyi Zhang, Jing Liu, Jianqiao Lu, Ziwen Xu, Mengzhao Chen, Minrui Wang, Shiyi Zhan, Jin Ma, Xunhao Lai, Yao Luo, Xingyan Bin, Hongbin Ren, Mingji Han, Wenhao Hao, Bairen Yi, LingJun Liu, Bole Ma, Xiaoying Jia, Zhou Xun, Liang Xiang, Yonghui Wu
cs.AI
초록
모델 병합은 대규모 언어 모델을 향상시키기 위한 유망한 기술로 부상했지만, 대규모 사전 학습에서의 적용은 상대적으로 탐구되지 않았습니다. 본 논문에서는 사전 학습 과정에서의 모델 병합 기술에 대한 포괄적인 연구를 제시합니다. 수백만에서 1000억 개 이상의 파라미터를 가진 밀집(Dense) 및 Mixture-of-Experts(MoE) 아키텍처를 대상으로 한 광범위한 실험을 통해, 고정 학습률로 훈련된 체크포인트를 병합하는 것이 성능 개선뿐만 아니라 어닐링(annealing) 동작의 정확한 예측도 가능하게 함을 입증합니다. 이러한 개선은 더 효율적인 모델 개발과 상당히 낮은 훈련 비용으로 이어집니다. 병합 전략과 하이퍼파라미터에 대한 상세한 어블레이션 연구는 기본 메커니즘에 대한 새로운 통찰을 제공하면서 새로운 응용 분야를 발견합니다. 포괄적인 실험 분석을 통해, 우리는 오픈소스 커뮤니티에 효과적인 모델 병합을 위한 실용적인 사전 학습 가이드라인을 제시합니다.
English
Model merging has emerged as a promising technique for enhancing large
language models, though its application in large-scale pre-training remains
relatively unexplored. In this paper, we present a comprehensive investigation
of model merging techniques during the pre-training process. Through extensive
experiments with both dense and Mixture-of-Experts (MoE) architectures ranging
from millions to over 100 billion parameters, we demonstrate that merging
checkpoints trained with constant learning rates not only achieves significant
performance improvements but also enables accurate prediction of annealing
behavior. These improvements lead to both more efficient model development and
significantly lower training costs. Our detailed ablation studies on merging
strategies and hyperparameters provide new insights into the underlying
mechanisms while uncovering novel applications. Through comprehensive
experimental analysis, we offer the open-source community practical
pre-training guidelines for effective model merging.Summary
AI-Generated Summary