Progressieve Residuele Opwarming voor Vooraf Trainen van Taalmodellen

Samenvatting

Transformer-architecturen vormen de ruggengraat van de meeste moderne Large Language Models, waardoor hun pretrainingsstabiliteit en convergentiesnelheid van centraal belang zijn. Gemotiveerd door de logische afhankelijkheid van opeenvolgend gestapelde lagen, stellen we Progressive Residual Warmup (ProRes) voor voor het pretrainen van taalmodel. ProRes implementeert een "vroege laag leert eerst"-filosofie door de residuele verbinding van elke laag te vermenigvuldigen met een scalar die geleidelijk opwarmt van 0 naar 1, waarbij diepere lagen meer opwarmstappen nodig hebben. Op deze manier wachten diepere lagen tot vroege lagen zich in een stabieler regime hebben gestabiliseerd voordat zij bijdragen aan het leerproces. We demonstreren de effectiviteit van ProRes via pretrainingsexperimenten met diverse modelschalen, normalisatie- en initialisatieschema's. Uitgebreide analyse toont aan dat ProRes niet alleen de pretraining stabiliseert, maar ook een unieke optimalisatietrajectorie introduceert, wat leidt tot snellere convergentie, sterkere generalisatie en betere downstream-prestaties. Onze code is beschikbaar op https://github.com/dandingsky/ProRes.

English

Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.

Progressieve Residuele Opwarming voor Vooraf Trainen van Taalmodellen

Progressive Residual Warmup for Language Model Pretraining

Samenvatting

Support