Riciclo di checkpoint pre-addestrati: crescita ortogonale di Mixture-of-Experts per un pre-addestramento efficiente di grandi modelli linguistici
Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training
October 9, 2025
Autori: Ruizhe Wang, Yucheng Ding, Xiao Liu, Yaoxiang Wang, Peng Cheng, Baining Guo, Zhengjun Zha, Yeyun Gong
cs.AI
Abstract
Il rapido aumento dei costi computazionali per il preaddestramento di modelli linguistici di grandi dimensioni rende necessari approcci più efficienti. Numerosi costi computazionali sono stati investiti in checkpoint ben addestrati esistenti, ma molti di essi rimangono sottoutilizzati a causa di vincoli ingegneristici o di una capacità limitata del modello. Per riutilizzare in modo efficiente questo "costo affondato", proponiamo di riciclare i checkpoint preaddestrati espandendo il numero dei loro parametri e continuando l'addestramento. Proponiamo un metodo di crescita ortogonale particolarmente adatto per modelli Mixture-of-Experts convergente: copia interposizionale degli strati per la crescita in profondità e duplicazione degli esperti con rumore iniettato per la crescita in ampiezza. Per determinare il momento ottimale per tale crescita lungo sequenze di checkpoint, eseguiamo esperimenti di scalabilità completi che rivelano come l'accuratezza finale abbia una forte correlazione positiva con l'entità del costo affondato, indicando che un maggiore investimento precedente porta a prestazioni migliori. Scaliamo il nostro approccio a modelli con 70 miliardi di parametri e oltre 1 trilione di token di addestramento, ottenendo un guadagno di accuratezza del 10,66% rispetto all'addestramento da zero con lo stesso budget computazionale aggiuntivo. Il nostro approccio di riciclo dei checkpoint stabilisce una base per il preaddestramento economicamente efficiente di modelli linguistici di grandi dimensioni.
English
The rapidly increasing computational cost of pretraining Large Language
Models necessitates more efficient approaches. Numerous computational costs
have been invested in existing well-trained checkpoints, but many of them
remain underutilized due to engineering constraints or limited model capacity.
To efficiently reuse this "sunk" cost, we propose to recycle pretrained
checkpoints by expanding their parameter counts and continuing training. We
propose orthogonal growth method well-suited for converged Mixture-of-Experts
model: interpositional layer copying for depth growth and expert duplication
with injected noise for width growth. To determine the optimal timing for such
growth across checkpoints sequences, we perform comprehensive scaling
experiments revealing that the final accuracy has a strong positive correlation
with the amount of sunk cost, indicating that greater prior investment leads to
better performance. We scale our approach to models with 70B parameters and
over 1T training tokens, achieving 10.66% accuracy gain over training from
scratch under the same additional compute budget. Our checkpoint recycling
approach establishes a foundation for economically efficient large language
model pretraining.