Progressives Restwärme-Aufwärmen für das Vortraining von Sprachmodellen
Progressive Residual Warmup for Language Model Pretraining
March 5, 2026
Autoren: Tianhao Chen, Xin Xu, Lu Yin, Hao Chen, Yang Wang, Shizhe Diao, Can Yang
cs.AI
Zusammenfassung
Transformer-Architekturen bilden das Rückgrat der meisten modernen Large Language Models, weshalb ihre Vor-Trainingsstabilität und Konvergenzgeschwindigkeit von zentraler Bedeutung sind. Motiviert durch die logische Abhängigkeit sequentiell gestapelter Schichten schlagen wir Progressive Residual Warmup (ProRes) für das Sprachmodell-Pretraining vor. ProRes implementiert eine Philosophie des „frühen Schichtenlernens zuerst“, indem der Residualwert jeder Schicht mit einem Skalar multipliziert wird, der schrittweise von 0 auf 1 ansteigt, wobei tiefere Schichten längere Aufwärmphasen durchlaufen. Auf diese Weise warten tiefere Schichten ab, bis frühere Schichten sich in einem stabileren Zustand befinden, bevor sie zum Lernprozess beitragen. Wir demonstrieren die Wirksamkeit von ProRes durch Pretraining-Experimente mit verschiedenen Modellgrößen sowie Normalisierungs- und Initialisierungsschemata. Eine umfassende Analyse zeigt, dass ProRes nicht nur das Pretraining stabilisiert, sondern auch eine einzigartige Optimierungstrajektorie einführt, die zu schnellerer Konvergenz, stärkerer Generalisierung und besserer Leistung in Downstream-Aufgaben führt. Unser Code ist verfügbar unter https://github.com/dandingsky/ProRes.
English
Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.