Dinámicas de Aprendizaje en el Preentrenamiento Continuo para Modelos de Lenguaje a Gran Escala
Learning Dynamics in Continual Pre-Training for Large Language Models
May 12, 2025
Autores: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
cs.AI
Resumen
El Preentrenamiento Continuo (CPT, por sus siglas en inglés) se ha convertido en un método popular y efectivo para aplicar modelos base robustos a tareas específicas de dominio. En este trabajo, exploramos la dinámica de aprendizaje durante el proceso de CPT en modelos de lenguaje de gran escala. Nos enfocamos específicamente en cómo evoluciona el rendimiento general y en el dominio específico en cada paso de entrenamiento, midiendo el rendimiento del dominio a través de las pérdidas de validación. Hemos observado que la curva de pérdida del CPT caracteriza fundamentalmente la transición de una curva a otra curva oculta, y podría describirse desacoplando los efectos del cambio de distribución y el decremento de la tasa de aprendizaje. Derivamos una ley de escalamiento para CPT que combina estos dos factores, permitiendo predecir la pérdida en cualquier paso de entrenamiento (continuo) y a través de diferentes programaciones de tasas de aprendizaje (LRS) en CPT. Nuestra formulación presenta una comprensión integral de varios factores críticos en CPT, incluyendo el potencial de pérdida, la tasa de aprendizaje máxima, los pasos de entrenamiento, la proporción de repetición, entre otros. Además, nuestro enfoque puede adaptarse para personalizar los hiperparámetros de entrenamiento según diferentes objetivos de CPT, como equilibrar el rendimiento general y específico del dominio. Experimentos extensos demuestran que nuestra ley de escalamiento se mantiene en diversos conjuntos de datos de CPT y con diferentes hiperparámetros de entrenamiento.
English
Continual Pre-Training (CPT) has become a popular and effective method to
apply strong foundation models to specific downstream tasks. In this work, we
explore the learning dynamics throughout the CPT process for large language
models. We specifically focus on how general and downstream domain performance
evolves at each training step, with domain performance measured via validation
losses. We have observed that the CPT loss curve fundamentally characterizes
the transition from one curve to another hidden curve, and could be described
by decoupling the effects of distribution shift and learning rate annealing. We
derive a CPT scaling law that combines the two factors, enabling the prediction
of loss at any (continual) training steps and across learning rate schedules
(LRS) in CPT. Our formulation presents a comprehensive understanding of several
critical factors in CPT, including loss potential, peak learning rate, training
steps, replay ratio, etc. Moreover, our approach can be adapted to customize
training hyper-parameters to different CPT goals such as balancing general and
domain-specific performance. Extensive experiments demonstrate that our scaling
law holds across various CPT datasets and training hyper-parameters.Summary
AI-Generated Summary