Progressieve Residuele Opwarming voor Vooraf Trainen van Taalmodellen
Progressive Residual Warmup for Language Model Pretraining
March 5, 2026
Auteurs: Tianhao Chen, Xin Xu, Lu Yin, Hao Chen, Yang Wang, Shizhe Diao, Can Yang
cs.AI
Samenvatting
Transformer-architecturen vormen de ruggengraat van de meeste moderne Large Language Models, waardoor hun pretrainingsstabiliteit en convergentiesnelheid van centraal belang zijn. Gemotiveerd door de logische afhankelijkheid van opeenvolgend gestapelde lagen, stellen we Progressive Residual Warmup (ProRes) voor voor het pretrainen van taalmodel. ProRes implementeert een "vroege laag leert eerst"-filosofie door de residuele verbinding van elke laag te vermenigvuldigen met een scalar die geleidelijk opwarmt van 0 naar 1, waarbij diepere lagen meer opwarmstappen nodig hebben. Op deze manier wachten diepere lagen tot vroege lagen zich in een stabieler regime hebben gestabiliseerd voordat zij bijdragen aan het leerproces. We demonstreren de effectiviteit van ProRes via pretrainingsexperimenten met diverse modelschalen, normalisatie- en initialisatieschema's. Uitgebreide analyse toont aan dat ProRes niet alleen de pretraining stabiliseert, maar ook een unieke optimalisatietrajectorie introduceert, wat leidt tot snellere convergentie, sterkere generalisatie en betere downstream-prestaties. Onze code is beschikbaar op https://github.com/dandingsky/ProRes.
English
Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.