Dinamiche di Apprendimento nel Pre-Addestramento Continuo per Modelli Linguistici di Grande Scala
Learning Dynamics in Continual Pre-Training for Large Language Models
May 12, 2025
Autori: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
cs.AI
Abstract
Il Continual Pre-Training (CPT) è diventato un metodo popolare ed efficace per applicare modelli di base robusti a specifici task downstream. In questo lavoro, esploriamo le dinamiche di apprendimento durante il processo di CPT per i modelli linguistici di grandi dimensioni. Ci concentriamo in particolare su come le prestazioni generali e quelle specifiche del dominio evolvono a ogni passo di addestramento, con le prestazioni del dominio misurate tramite le perdite di validazione. Abbiamo osservato che la curva di perdita del CPT caratterizza fondamentalmente la transizione da una curva a un'altra curva nascosta, e potrebbe essere descritta scomponendo gli effetti dello spostamento della distribuzione e dell'annealing del tasso di apprendimento. Deriviamo una legge di scalabilità del CPT che combina i due fattori, consentendo di prevedere la perdita in qualsiasi passo di addestramento (continuo) e attraverso diverse pianificazioni del tasso di apprendimento (LRS) nel CPT. La nostra formulazione offre una comprensione completa di diversi fattori critici nel CPT, tra cui il potenziale di perdita, il picco del tasso di apprendimento, i passi di addestramento, il rapporto di replay, ecc. Inoltre, il nostro approccio può essere adattato per personalizzare gli iperparametri di addestramento in base a diversi obiettivi di CPT, come bilanciare le prestazioni generali e quelle specifiche del dominio. Esperimenti estensivi dimostrano che la nostra legge di scalabilità è valida su vari dataset di CPT e iperparametri di addestramento.
English
Continual Pre-Training (CPT) has become a popular and effective method to
apply strong foundation models to specific downstream tasks. In this work, we
explore the learning dynamics throughout the CPT process for large language
models. We specifically focus on how general and downstream domain performance
evolves at each training step, with domain performance measured via validation
losses. We have observed that the CPT loss curve fundamentally characterizes
the transition from one curve to another hidden curve, and could be described
by decoupling the effects of distribution shift and learning rate annealing. We
derive a CPT scaling law that combines the two factors, enabling the prediction
of loss at any (continual) training steps and across learning rate schedules
(LRS) in CPT. Our formulation presents a comprehensive understanding of several
critical factors in CPT, including loss potential, peak learning rate, training
steps, replay ratio, etc. Moreover, our approach can be adapted to customize
training hyper-parameters to different CPT goals such as balancing general and
domain-specific performance. Extensive experiments demonstrate that our scaling
law holds across various CPT datasets and training hyper-parameters.