Calentamiento Progresivo Residual para el Pretrenamiento de Modelos de Lenguaje
Progressive Residual Warmup for Language Model Pretraining
March 5, 2026
Autores: Tianhao Chen, Xin Xu, Lu Yin, Hao Chen, Yang Wang, Shizhe Diao, Can Yang
cs.AI
Resumen
Las arquitecturas Transformer constituyen la columna vertebral de la mayoría de los Modelos de Lenguaje a Gran Escala (LLMs) modernos, por lo que su estabilidad durante el preentrenamiento y su velocidad de convergencia son de primordial importancia. Motivados por la dependencia lógica de las capas apiladas secuencialmente, proponemos el Calentamiento Progresivo de Residuales (ProRes) para el preentrenamiento de modelos de lenguaje. ProRes implementa una filosofía de "la capa temprana aprende primero" multiplicando el residual de cada capa por un escalar que se calienta gradualmente de 0 a 1, requiriendo las capas más profundas un mayor número de pasos de calentamiento. De esta manera, las capas más profundas esperan a que las capas tempranas se estabilicen en un régimen más estable antes de contribuir al aprendizaje. Demostramos la efectividad de ProRes mediante experimentos de preentrenamiento en varias escalas de modelo, así como en diferentes esquemas de normalización e inicialización. Un análisis exhaustivo muestra que ProRes no solo estabiliza el preentrenamiento, sino que también introduce una trayectoria de optimización única, conduciendo a una convergencia más rápida, una mayor capacidad de generalización y un mejor rendimiento en tareas posteriores. Nuestro código está disponible en https://github.com/dandingsky/ProRes.
English
Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.