Hergebruik van Vooraf Getrainde Checkpoints: Orthogonale Groei van Mixture-of-Experts voor Efficiënte Pre-Training van Grote Taalmodellen
Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training
October 9, 2025
Auteurs: Ruizhe Wang, Yucheng Ding, Xiao Liu, Yaoxiang Wang, Peng Cheng, Baining Guo, Zhengjun Zha, Yeyun Gong
cs.AI
Samenvatting
De snel toenemende rekenkosten van het vooraf trainen van grote taalmodel-
len vereisen efficiëntere benaderingen. Aanzienlijke rekenkosten zijn geïnves-
teerd in bestaande goed getrainde checkpoints, maar veel daarvan blijven onder-
benut vanwege technische beperkingen of beperkte modelcapaciteit. Om deze
"gezonken" kosten efficiënt te hergebruiken, stellen we voor om vooraf getrai-
nde checkpoints te recyclen door hun parameteraantallen uit te breiden en het
trainen voort te zetten. We introduceren een orthogonale groeimethode die goed
geschikt is voor geconvergeerde Mixture-of-Experts-modellen: interpositionele
laagkopiëring voor dieptegroei en expertduplicatie met geïnjecteerde ruis voor
breedtegroei. Om het optimale moment voor dergelijke groei in checkpointse-
quenties te bepalen, voeren we uitgebreide schaalexperimenten uit die aantonen
dat de uiteindelijke nauwkeurigheid een sterke positieve correlatie heeft met de
hoeveelheid gezonken kosten, wat aangeeft dat een grotere eerdere investering
leidt tot betere prestaties. We schalen onze aanpak op naar modellen met 70B
parameters en meer dan 1T trainings-tokens, waarbij we een nauwkeurigheids-
winst van 10,66% behalen ten opzichte van trainen vanaf nul onder hetzelfde
extra rekenbudget. Onze checkpointrecyclingaanpak legt een basis voor econo-
misch efficiënt vooraf trainen van grote taalmodel-len.
English
The rapidly increasing computational cost of pretraining Large Language
Models necessitates more efficient approaches. Numerous computational costs
have been invested in existing well-trained checkpoints, but many of them
remain underutilized due to engineering constraints or limited model capacity.
To efficiently reuse this "sunk" cost, we propose to recycle pretrained
checkpoints by expanding their parameter counts and continuing training. We
propose orthogonal growth method well-suited for converged Mixture-of-Experts
model: interpositional layer copying for depth growth and expert duplication
with injected noise for width growth. To determine the optimal timing for such
growth across checkpoints sequences, we perform comprehensive scaling
experiments revealing that the final accuracy has a strong positive correlation
with the amount of sunk cost, indicating that greater prior investment leads to
better performance. We scale our approach to models with 70B parameters and
over 1T training tokens, achieving 10.66% accuracy gain over training from
scratch under the same additional compute budget. Our checkpoint recycling
approach establishes a foundation for economically efficient large language
model pretraining.