Прогрессивный прогревочный остаток для предварительного обучения языковых моделей
Progressive Residual Warmup for Language Model Pretraining
March 5, 2026
Авторы: Tianhao Chen, Xin Xu, Lu Yin, Hao Chen, Yang Wang, Shizhe Diao, Can Yang
cs.AI
Аннотация
Архитектуры транссформеров служат основой для большинства современных больших языковых моделей, поэтому стабильность их предварительного обучения и скорость сходимости имеют первостепенное значение. Мотивированные логической зависимостью последовательно stacked слоев, мы предлагаем метод прогрессивного прогрева остаточных связей (Progressive Residual Warmup, ProRes) для предварительного обучения языковых моделей. ProRes реализует философию «ранние слои обучаются первыми», умножая остаточную связь каждого слоя на скаляр, который постепенно увеличивается от 0 до 1, причем более глубоким слоям требуется больше шагов прогрева. Таким образом, глубокие слои ожидают, пока ранние слои стабилизируются, прежде чем начать вносить вклад в обучение. Мы демонстрируем эффективность ProRes в экспериментах по предварительному обучению моделей различных масштабов, а также при различных схемах нормализации и инициализации. Всесторонний анализ показывает, что ProRes не только стабилизирует предварительное обучение, но и создает уникальную траекторию оптимизации, приводя к более быстрой сходимости, лучшей обобщающей способности и повышению производительности на downstream-задачах. Наш код доступен по адресу https://github.com/dandingsky/ProRes.
English
Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.