Dinamiche di Apprendimento nel Pre-Addestramento Continuo per Modelli Linguistici di Grande Scala

Abstract

Il Continual Pre-Training (CPT) è diventato un metodo popolare ed efficace per applicare modelli di base robusti a specifici task downstream. In questo lavoro, esploriamo le dinamiche di apprendimento durante il processo di CPT per i modelli linguistici di grandi dimensioni. Ci concentriamo in particolare su come le prestazioni generali e quelle specifiche del dominio evolvono a ogni passo di addestramento, con le prestazioni del dominio misurate tramite le perdite di validazione. Abbiamo osservato che la curva di perdita del CPT caratterizza fondamentalmente la transizione da una curva a un'altra curva nascosta, e potrebbe essere descritta scomponendo gli effetti dello spostamento della distribuzione e dell'annealing del tasso di apprendimento. Deriviamo una legge di scalabilità del CPT che combina i due fattori, consentendo di prevedere la perdita in qualsiasi passo di addestramento (continuo) e attraverso diverse pianificazioni del tasso di apprendimento (LRS) nel CPT. La nostra formulazione offre una comprensione completa di diversi fattori critici nel CPT, tra cui il potenziale di perdita, il picco del tasso di apprendimento, i passi di addestramento, il rapporto di replay, ecc. Inoltre, il nostro approccio può essere adattato per personalizzare gli iperparametri di addestramento in base a diversi obiettivi di CPT, come bilanciare le prestazioni generali e quelle specifiche del dominio. Esperimenti estensivi dimostrano che la nostra legge di scalabilità è valida su vari dataset di CPT e iperparametri di addestramento.

English

Continual Pre-Training (CPT) has become a popular and effective method to apply strong foundation models to specific downstream tasks. In this work, we explore the learning dynamics throughout the CPT process for large language models. We specifically focus on how general and downstream domain performance evolves at each training step, with domain performance measured via validation losses. We have observed that the CPT loss curve fundamentally characterizes the transition from one curve to another hidden curve, and could be described by decoupling the effects of distribution shift and learning rate annealing. We derive a CPT scaling law that combines the two factors, enabling the prediction of loss at any (continual) training steps and across learning rate schedules (LRS) in CPT. Our formulation presents a comprehensive understanding of several critical factors in CPT, including loss potential, peak learning rate, training steps, replay ratio, etc. Moreover, our approach can be adapted to customize training hyper-parameters to different CPT goals such as balancing general and domain-specific performance. Extensive experiments demonstrate that our scaling law holds across various CPT datasets and training hyper-parameters.

Dinamiche di Apprendimento nel Pre-Addestramento Continuo per Modelli Linguistici di Grande Scala

Learning Dynamics in Continual Pre-Training for Large Language Models

Abstract

Support