Réchauffement progressif par résidus pour le pré-entraînement de modèles de langage
Progressive Residual Warmup for Language Model Pretraining
March 5, 2026
Auteurs: Tianhao Chen, Xin Xu, Lu Yin, Hao Chen, Yang Wang, Shizhe Diao, Can Yang
cs.AI
Résumé
Les architectures Transformer constituent la colonne vertébrale de la plupart des grands modèles de langage modernes, c'est pourquoi leur stabilité lors du pré-entraînement et leur vitesse de convergence sont des préoccupations centrales. Motivés par la dépendance logique des couches empilées séquentiellement, nous proposons le Progressive Residual Warmup (ProRes) pour le pré-entraînement des modèles de langage. ProRes met en œuvre une philosophie « les premières couches apprennent en premier » en multipliant la connexion résiduelle de chaque couche par un scalaire qui augmente progressivement de 0 à 1, les couches plus profondes nécessitant plus d'étapes de mise en route. Ainsi, les couches profondes attendent que les premières couches se stabilisent avant de contribuer à l'apprentissage. Nous démontrons l'efficacité de ProRes grâce à des expériences de pré-entraînement sur diverses échelles de modèles, ainsi que sur différents schémas de normalisation et d'initialisation. Une analyse approfondie montre que ProRes stabilise non seulement le pré-entraînement, mais introduit également une trajectoire d'optimisation unique, conduisant à une convergence plus rapide, une meilleure généralisation et de meilleures performances en aval. Notre code est disponible à l'adresse https://github.com/dandingsky/ProRes.
English
Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.