Riscaldamento Progressivo con Residui per il Pre-addestramento di Modelli Linguistici

Abstract

Le architetture Transformer costituiscono la spina dorsale della maggior parte dei moderni Large Language Model, pertanto la loro stabilità durante il pretraining e la velocità di convergenza sono di centrale importanza. Motivati dalla dipendenza logica degli strati sequenzialmente impilati, proponiamo il Progressive Residual Warmup (ProRes) per il pretraining dei modelli linguistici. ProRes implementa una filosofia per cui "gli strati iniziali apprendono per primi", moltiplicando il residuo di ciascuno strato per uno scalare che si riscalda gradualmente da 0 a 1, con gli strati più profondi che richiedono un maggior numero di passi di riscaldamento. In questo modo, gli strati più profondi attendono che quelli iniziali si stabilizzino in un regime più stabile prima di contribuire all'apprendimento. Dimostriamo l'efficacia di ProRes attraverso esperimenti di pretraining su varie scale modelli, nonché schemi di normalizzazione e inizializzazione. Un'analisi completa mostra che ProRes non solo stabilizza il pretraining, ma introduce anche una traiettoria di ottimizzazione unica, portando a una convergenza più rapida, una generalizzazione più robusta e migliori prestazioni sulle attività downstream. Il nostro codice è disponibile all'indirizzo https://github.com/dandingsky/ProRes.

English

Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.

Riscaldamento Progressivo con Residui per il Pre-addestramento di Modelli Linguistici

Progressive Residual Warmup for Language Model Pretraining

Abstract

Support