Reciclagem de Checkpoints Pré-treinados: Crescimento Ortogonal de Mistura de Especialistas para Pré-treinamento Eficiente de Modelos de Linguagem de Grande Escala
Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training
October 9, 2025
Autores: Ruizhe Wang, Yucheng Ding, Xiao Liu, Yaoxiang Wang, Peng Cheng, Baining Guo, Zhengjun Zha, Yeyun Gong
cs.AI
Resumo
O custo computacional cada vez maior do pré-treinamento de Modelos de Linguagem de Grande Escala (LLMs) exige abordagens mais eficientes. Investimentos significativos em custos computacionais foram feitos em checkpoints bem treinados existentes, mas muitos deles permanecem subutilizados devido a restrições de engenharia ou capacidade limitada do modelo. Para reutilizar de forma eficiente esse custo "afundado", propomos reciclar checkpoints pré-treinados expandindo suas contagens de parâmetros e continuando o treinamento. Propomos um método de crescimento ortogonal bem adequado para modelos Mixture-of-Experts (MoE) convergidos: cópia de camadas interposicionais para crescimento em profundidade e duplicação de especialistas com ruído injetado para crescimento em largura. Para determinar o momento ideal para esse crescimento em sequências de checkpoints, realizamos experimentos abrangentes de escalonamento que revelam que a precisão final tem uma forte correlação positiva com a quantidade de custo afundado, indicando que um maior investimento prévio leva a um melhor desempenho. Escalonamos nossa abordagem para modelos com 70 bilhões de parâmetros e mais de 1 trilhão de tokens de treinamento, alcançando um ganho de precisão de 10,66% em relação ao treinamento do zero sob o mesmo orçamento computacional adicional. Nossa abordagem de reciclagem de checkpoints estabelece uma base para o pré-treinamento economicamente eficiente de modelos de linguagem de grande escala.
English
The rapidly increasing computational cost of pretraining Large Language
Models necessitates more efficient approaches. Numerous computational costs
have been invested in existing well-trained checkpoints, but many of them
remain underutilized due to engineering constraints or limited model capacity.
To efficiently reuse this "sunk" cost, we propose to recycle pretrained
checkpoints by expanding their parameter counts and continuing training. We
propose orthogonal growth method well-suited for converged Mixture-of-Experts
model: interpositional layer copying for depth growth and expert duplication
with injected noise for width growth. To determine the optimal timing for such
growth across checkpoints sequences, we perform comprehensive scaling
experiments revealing that the final accuracy has a strong positive correlation
with the amount of sunk cost, indicating that greater prior investment leads to
better performance. We scale our approach to models with 70B parameters and
over 1T training tokens, achieving 10.66% accuracy gain over training from
scratch under the same additional compute budget. Our checkpoint recycling
approach establishes a foundation for economically efficient large language
model pretraining.