ChatPaper.aiChatPaper

大規模言語モデルの事前学習におけるモデル統合

Model Merging in Pre-training of Large Language Models

May 17, 2025
著者: Yunshui Li, Yiyuan Ma, Shen Yan, Chaoyi Zhang, Jing Liu, Jianqiao Lu, Ziwen Xu, Mengzhao Chen, Minrui Wang, Shiyi Zhan, Jin Ma, Xunhao Lai, Yao Luo, Xingyan Bin, Hongbin Ren, Mingji Han, Wenhao Hao, Bairen Yi, LingJun Liu, Bole Ma, Xiaoying Jia, Zhou Xun, Liang Xiang, Yonghui Wu
cs.AI

要旨

モデルマージは大規模言語モデルの性能向上に向けた有望な技術として注目を集めているが、大規模事前学習への応用はまだ十分に検討されていない。本論文では、事前学習プロセスにおけるモデルマージ技術の包括的な調査を提示する。数百万から1000億を超えるパラメータ規模の密結合型およびMixture-of-Experts(MoE)アーキテクチャを用いた広範な実験を通じて、一定の学習率で訓練されたチェックポイントをマージすることで、性能の大幅な向上が達成されるだけでなく、アニーリング挙動の正確な予測が可能になることを実証した。これらの改善は、モデル開発の効率化と訓練コストの大幅な削減につながる。マージ戦略とハイパーパラメータに関する詳細なアブレーション研究は、その基盤となるメカニズムに対する新たな知見を提供するとともに、新規の応用可能性を明らかにした。包括的な実験分析を通じて、オープンソースコミュニティに対して効果的なモデルマージのための実践的な事前学習ガイドラインを提供する。
English
Model merging has emerged as a promising technique for enhancing large language models, though its application in large-scale pre-training remains relatively unexplored. In this paper, we present a comprehensive investigation of model merging techniques during the pre-training process. Through extensive experiments with both dense and Mixture-of-Experts (MoE) architectures ranging from millions to over 100 billion parameters, we demonstrate that merging checkpoints trained with constant learning rates not only achieves significant performance improvements but also enables accurate prediction of annealing behavior. These improvements lead to both more efficient model development and significantly lower training costs. Our detailed ablation studies on merging strategies and hyperparameters provide new insights into the underlying mechanisms while uncovering novel applications. Through comprehensive experimental analysis, we offer the open-source community practical pre-training guidelines for effective model merging.

Summary

AI-Generated Summary

PDF275May 20, 2025