Riciclo di checkpoint pre-addestrati: crescita ortogonale di Mixture-of-Experts per un pre-addestramento efficiente di grandi modelli linguistici

Abstract

Il rapido aumento dei costi computazionali per il preaddestramento di modelli linguistici di grandi dimensioni rende necessari approcci più efficienti. Numerosi costi computazionali sono stati investiti in checkpoint ben addestrati esistenti, ma molti di essi rimangono sottoutilizzati a causa di vincoli ingegneristici o di una capacità limitata del modello. Per riutilizzare in modo efficiente questo "costo affondato", proponiamo di riciclare i checkpoint preaddestrati espandendo il numero dei loro parametri e continuando l'addestramento. Proponiamo un metodo di crescita ortogonale particolarmente adatto per modelli Mixture-of-Experts convergente: copia interposizionale degli strati per la crescita in profondità e duplicazione degli esperti con rumore iniettato per la crescita in ampiezza. Per determinare il momento ottimale per tale crescita lungo sequenze di checkpoint, eseguiamo esperimenti di scalabilità completi che rivelano come l'accuratezza finale abbia una forte correlazione positiva con l'entità del costo affondato, indicando che un maggiore investimento precedente porta a prestazioni migliori. Scaliamo il nostro approccio a modelli con 70 miliardi di parametri e oltre 1 trilione di token di addestramento, ottenendo un guadagno di accuratezza del 10,66% rispetto all'addestramento da zero con lo stesso budget computazionale aggiuntivo. Il nostro approccio di riciclo dei checkpoint stabilisce una base per il preaddestramento economicamente efficiente di modelli linguistici di grandi dimensioni.

English

The rapidly increasing computational cost of pretraining Large Language Models necessitates more efficient approaches. Numerous computational costs have been invested in existing well-trained checkpoints, but many of them remain underutilized due to engineering constraints or limited model capacity. To efficiently reuse this "sunk" cost, we propose to recycle pretrained checkpoints by expanding their parameter counts and continuing training. We propose orthogonal growth method well-suited for converged Mixture-of-Experts model: interpositional layer copying for depth growth and expert duplication with injected noise for width growth. To determine the optimal timing for such growth across checkpoints sequences, we perform comprehensive scaling experiments revealing that the final accuracy has a strong positive correlation with the amount of sunk cost, indicating that greater prior investment leads to better performance. We scale our approach to models with 70B parameters and over 1T training tokens, achieving 10.66% accuracy gain over training from scratch under the same additional compute budget. Our checkpoint recycling approach establishes a foundation for economically efficient large language model pretraining.

Riciclo di checkpoint pre-addestrati: crescita ortogonale di Mixture-of-Experts per un pre-addestramento efficiente di grandi modelli linguistici

Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training

Abstract

Support