Reutilización de Puntos de Control Preentrenados: Crecimiento Ortogonal de Mezcla de Expertos para el Preentrenamiento Eficiente de Modelos de Lenguaje a Gran Escala
Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training
October 9, 2025
Autores: Ruizhe Wang, Yucheng Ding, Xiao Liu, Yaoxiang Wang, Peng Cheng, Baining Guo, Zhengjun Zha, Yeyun Gong
cs.AI
Resumen
El rápido incremento en el costo computacional del preentrenamiento de Modelos de Lenguaje de Gran Escala (LLM) exige enfoques más eficientes. Se han invertido numerosos recursos computacionales en puntos de control (checkpoints) bien entrenados existentes, pero muchos de ellos permanecen subutilizados debido a limitaciones de ingeniería o capacidad reducida del modelo. Para reutilizar eficientemente este costo "hundido", proponemos reciclar puntos de control preentrenados expandiendo su número de parámetros y continuando el entrenamiento. Proponemos un método de crecimiento ortogonal adecuado para modelos Mixture-of-Experts (MoE) convergidos: copia de capas interposicionales para crecimiento en profundidad y duplicación de expertos con ruido inyectado para crecimiento en amplitud. Para determinar el momento óptimo de dicho crecimiento en secuencias de puntos de control, realizamos experimentos exhaustivos de escalado que revelan que la precisión final tiene una fuerte correlación positiva con la cantidad de costo hundido, indicando que una mayor inversión previa conduce a un mejor rendimiento. Escalamos nuestro enfoque a modelos con 70 mil millones de parámetros y más de 1 billón de tokens de entrenamiento, logrando una mejora del 10.66% en precisión en comparación con el entrenamiento desde cero bajo el mismo presupuesto computacional adicional. Nuestro enfoque de reciclaje de puntos de control establece una base para el preentrenamiento económicamente eficiente de modelos de lenguaje de gran escala.
English
The rapidly increasing computational cost of pretraining Large Language
Models necessitates more efficient approaches. Numerous computational costs
have been invested in existing well-trained checkpoints, but many of them
remain underutilized due to engineering constraints or limited model capacity.
To efficiently reuse this "sunk" cost, we propose to recycle pretrained
checkpoints by expanding their parameter counts and continuing training. We
propose orthogonal growth method well-suited for converged Mixture-of-Experts
model: interpositional layer copying for depth growth and expert duplication
with injected noise for width growth. To determine the optimal timing for such
growth across checkpoints sequences, we perform comprehensive scaling
experiments revealing that the final accuracy has a strong positive correlation
with the amount of sunk cost, indicating that greater prior investment leads to
better performance. We scale our approach to models with 70B parameters and
over 1T training tokens, achieving 10.66% accuracy gain over training from
scratch under the same additional compute budget. Our checkpoint recycling
approach establishes a foundation for economically efficient large language
model pretraining.