Aquecimento Residual Progressivo para Pré-treinamento de Modelos de Linguagem

Resumo

As arquiteturas Transformer servem como base para a maioria dos modelos de linguagem de grande escala (LLMs) modernos, portanto, a estabilidade do seu pré-treinamento e a velocidade de convergência são preocupações centrais. Motivados pela dependência lógica das camadas sequencialmente empilhadas, propomos o Progressive Residual Warmup (ProRes) para o pré-treinamento de modelos de linguagem. O ProRes implementa uma filosofia de "a camada inicial aprende primeiro" multiplicando o residual de cada camada por um escalar que gradualmente aquece de 0 para 1, sendo que camadas mais profundas exigem mais etapas de aquecimento. Dessa forma, as camadas mais profundas aguardam que as camadas iniciais se estabilizem em um regime mais consistente antes de contribuir para o aprendizado. Demonstramos a eficácia do ProRes através de experimentos de pré-treinamento em várias escalas de modelo, bem como esquemas de normalização e inicialização. Uma análise abrangente mostra que o ProRes não apenas estabiliza o pré-treinamento, mas também introduz uma trajetória de otimização única, resultando em convergência mais rápida, generalização mais robusta e melhor desempenho em tarefas subsequentes. Nosso código está disponível em https://github.com/dandingsky/ProRes.

English

Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.

Aquecimento Residual Progressivo para Pré-treinamento de Modelos de Linguagem

Progressive Residual Warmup for Language Model Pretraining

Resumo

Support