ChatPaper.aiChatPaper

Modellzusammenführung im Pre-Training von großen Sprachmodellen

Model Merging in Pre-training of Large Language Models

May 17, 2025
Autoren: Yunshui Li, Yiyuan Ma, Shen Yan, Chaoyi Zhang, Jing Liu, Jianqiao Lu, Ziwen Xu, Mengzhao Chen, Minrui Wang, Shiyi Zhan, Jin Ma, Xunhao Lai, Yao Luo, Xingyan Bin, Hongbin Ren, Mingji Han, Wenhao Hao, Bairen Yi, LingJun Liu, Bole Ma, Xiaoying Jia, Zhou Xun, Liang Xiang, Yonghui Wu
cs.AI

Zusammenfassung

Das Modellzusammenführen hat sich als vielversprechende Technik zur Verbesserung großer Sprachmodelle erwiesen, obwohl seine Anwendung im groß angelegten Pre-Training noch relativ unerforscht ist. In diesem Artikel präsentieren wir eine umfassende Untersuchung von Modellzusammenführungstechniken während des Pre-Training-Prozesses. Durch umfangreiche Experimente mit sowohl dichten als auch Mixture-of-Experts (MoE)-Architekturen, die von Millionen bis über 100 Milliarden Parameter reichen, zeigen wir, dass das Zusammenführen von Checkpoints, die mit konstanten Lernraten trainiert wurden, nicht nur signifikante Leistungsverbesserungen erzielt, sondern auch eine präzise Vorhersage des Annealing-Verhaltens ermöglicht. Diese Verbesserungen führen sowohl zu einer effizienteren Modellentwicklung als auch zu deutlich niedrigeren Trainingskosten. Unsere detaillierten Ablationsstudien zu Zusammenführungsstrategien und Hyperparametern liefern neue Einblicke in die zugrunde liegenden Mechanismen und decken gleichzeitig neuartige Anwendungen auf. Durch eine umfassende experimentelle Analyse bieten wir der Open-Source-Community praktische Pre-Training-Leitlinien für effektives Modellzusammenführen.
English
Model merging has emerged as a promising technique for enhancing large language models, though its application in large-scale pre-training remains relatively unexplored. In this paper, we present a comprehensive investigation of model merging techniques during the pre-training process. Through extensive experiments with both dense and Mixture-of-Experts (MoE) architectures ranging from millions to over 100 billion parameters, we demonstrate that merging checkpoints trained with constant learning rates not only achieves significant performance improvements but also enables accurate prediction of annealing behavior. These improvements lead to both more efficient model development and significantly lower training costs. Our detailed ablation studies on merging strategies and hyperparameters provide new insights into the underlying mechanisms while uncovering novel applications. Through comprehensive experimental analysis, we offer the open-source community practical pre-training guidelines for effective model merging.

Summary

AI-Generated Summary

PDF275May 20, 2025