Dynamiques d'apprentissage dans le pré-entraînement continu pour les grands modèles de langage
Learning Dynamics in Continual Pre-Training for Large Language Models
May 12, 2025
Auteurs: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
cs.AI
Résumé
Le pré-entraînement continu (Continual Pre-Training, CPT) est devenu une méthode populaire et efficace pour appliquer des modèles de base robustes à des tâches spécifiques en aval. Dans ce travail, nous explorons la dynamique d'apprentissage tout au long du processus de CPT pour les grands modèles de langage. Nous nous concentrons spécifiquement sur l'évolution des performances générales et spécifiques au domaine à chaque étape d'entraînement, les performances du domaine étant mesurées via les pertes de validation. Nous avons observé que la courbe de perte du CPT caractérise fondamentalement la transition d'une courbe à une autre courbe cachée, et pourrait être décrite en découplant les effets du décalage de distribution et de l'ajustement du taux d'apprentissage. Nous dérivons une loi d'échelle pour le CPT qui combine ces deux facteurs, permettant de prédire la perte à n'importe quelle étape d'entraînement (continue) et pour différents plans de taux d'apprentissage (LRS) dans le CPT. Notre formulation offre une compréhension approfondie de plusieurs facteurs critiques dans le CPT, notamment le potentiel de perte, le taux d'apprentissage maximal, les étapes d'entraînement, le ratio de rejeu, etc. De plus, notre approche peut être adaptée pour personnaliser les hyperparamètres d'entraînement en fonction de différents objectifs de CPT, comme l'équilibre entre les performances générales et spécifiques au domaine. Des expériences approfondies démontrent que notre loi d'échelle est valable pour divers ensembles de données de CPT et hyperparamètres d'entraînement.
English
Continual Pre-Training (CPT) has become a popular and effective method to
apply strong foundation models to specific downstream tasks. In this work, we
explore the learning dynamics throughout the CPT process for large language
models. We specifically focus on how general and downstream domain performance
evolves at each training step, with domain performance measured via validation
losses. We have observed that the CPT loss curve fundamentally characterizes
the transition from one curve to another hidden curve, and could be described
by decoupling the effects of distribution shift and learning rate annealing. We
derive a CPT scaling law that combines the two factors, enabling the prediction
of loss at any (continual) training steps and across learning rate schedules
(LRS) in CPT. Our formulation presents a comprehensive understanding of several
critical factors in CPT, including loss potential, peak learning rate, training
steps, replay ratio, etc. Moreover, our approach can be adapted to customize
training hyper-parameters to different CPT goals such as balancing general and
domain-specific performance. Extensive experiments demonstrate that our scaling
law holds across various CPT datasets and training hyper-parameters.Summary
AI-Generated Summary