ChatPaper.aiChatPaper

Fusão de Modelos no Pré-treinamento de Grandes Modelos de Linguagem

Model Merging in Pre-training of Large Language Models

May 17, 2025
Autores: Yunshui Li, Yiyuan Ma, Shen Yan, Chaoyi Zhang, Jing Liu, Jianqiao Lu, Ziwen Xu, Mengzhao Chen, Minrui Wang, Shiyi Zhan, Jin Ma, Xunhao Lai, Yao Luo, Xingyan Bin, Hongbin Ren, Mingji Han, Wenhao Hao, Bairen Yi, LingJun Liu, Bole Ma, Xiaoying Jia, Zhou Xun, Liang Xiang, Yonghui Wu
cs.AI

Resumo

A fusão de modelos emergiu como uma técnica promissora para aprimorar modelos de linguagem de grande escala, embora sua aplicação em pré-treinamento em larga escala ainda seja relativamente inexplorada. Neste artigo, apresentamos uma investigação abrangente das técnicas de fusão de modelos durante o processo de pré-treinamento. Por meio de extensos experimentos com arquiteturas densas e de Mistura de Especialistas (MoE), variando de milhões a mais de 100 bilhões de parâmetros, demonstramos que a fusão de checkpoints treinados com taxas de aprendizado constantes não apenas alcança melhorias significativas de desempenho, mas também permite a previsão precisa do comportamento de recozimento. Essas melhorias resultam tanto em um desenvolvimento de modelos mais eficiente quanto em custos de treinamento significativamente menores. Nossos estudos detalhados de ablação sobre estratégias de fusão e hiperparâmetros fornecem novos insights sobre os mecanismos subjacentes, ao mesmo tempo em que revelam aplicações inovadoras. Por meio de uma análise experimental abrangente, oferecemos à comunidade de código aberto diretrizes práticas de pré-treinamento para uma fusão eficaz de modelos.
English
Model merging has emerged as a promising technique for enhancing large language models, though its application in large-scale pre-training remains relatively unexplored. In this paper, we present a comprehensive investigation of model merging techniques during the pre-training process. Through extensive experiments with both dense and Mixture-of-Experts (MoE) architectures ranging from millions to over 100 billion parameters, we demonstrate that merging checkpoints trained with constant learning rates not only achieves significant performance improvements but also enables accurate prediction of annealing behavior. These improvements lead to both more efficient model development and significantly lower training costs. Our detailed ablation studies on merging strategies and hyperparameters provide new insights into the underlying mechanisms while uncovering novel applications. Through comprehensive experimental analysis, we offer the open-source community practical pre-training guidelines for effective model merging.
PDF406May 20, 2025