Dinâmica de Aprendizado no Pré-Treinamento Contínuo para Modelos de Linguagem de Grande Escala
Learning Dynamics in Continual Pre-Training for Large Language Models
May 12, 2025
Autores: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
cs.AI
Resumo
O Pré-Treinamento Contínuo (CPT, do inglês Continual Pre-Training) tornou-se um método popular e eficaz para aplicar modelos de base robustos a tarefas específicas de downstream. Neste trabalho, exploramos a dinâmica de aprendizagem ao longo do processo de CPT para modelos de linguagem de grande escala. Especificamente, focamos em como o desempenho geral e no domínio de downstream evolui a cada etapa de treinamento, com o desempenho no domínio medido por meio de perdas de validação. Observamos que a curva de perda do CPT caracteriza fundamentalmente a transição de uma curva para outra curva oculta, e pode ser descrita ao desacoplar os efeitos da mudança de distribuição e do decaimento da taxa de aprendizagem. Derivamos uma lei de escalonamento de CPT que combina os dois fatores, permitindo a previsão da perda em qualquer etapa de treinamento (contínua) e em diferentes cronogramas de taxa de aprendizagem (LRS, do inglês Learning Rate Schedules) no CPT. Nossa formulação apresenta uma compreensão abrangente de vários fatores críticos no CPT, incluindo potencial de perda, taxa de aprendizagem máxima, etapas de treinamento, razão de replay, entre outros. Além disso, nossa abordagem pode ser adaptada para personalizar hiperparâmetros de treinamento para diferentes objetivos de CPT, como equilibrar o desempenho geral e específico do domínio. Experimentos extensivos demonstram que nossa lei de escalonamento é válida em diversos conjuntos de dados de CPT e hiperparâmetros de treinamento.
English
Continual Pre-Training (CPT) has become a popular and effective method to
apply strong foundation models to specific downstream tasks. In this work, we
explore the learning dynamics throughout the CPT process for large language
models. We specifically focus on how general and downstream domain performance
evolves at each training step, with domain performance measured via validation
losses. We have observed that the CPT loss curve fundamentally characterizes
the transition from one curve to another hidden curve, and could be described
by decoupling the effects of distribution shift and learning rate annealing. We
derive a CPT scaling law that combines the two factors, enabling the prediction
of loss at any (continual) training steps and across learning rate schedules
(LRS) in CPT. Our formulation presents a comprehensive understanding of several
critical factors in CPT, including loss potential, peak learning rate, training
steps, replay ratio, etc. Moreover, our approach can be adapted to customize
training hyper-parameters to different CPT goals such as balancing general and
domain-specific performance. Extensive experiments demonstrate that our scaling
law holds across various CPT datasets and training hyper-parameters.