Leerdynamiek in voortgezette voorafgaande training voor grote taalmodelen
Learning Dynamics in Continual Pre-Training for Large Language Models
May 12, 2025
Auteurs: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
cs.AI
Samenvatting
Continueel Voor-Trainen (CPT) is een populaire en effectieve methode geworden om krachtige basis modellen toe te passen op specifieke downstream taken. In dit werk onderzoeken we de leer dynamiek gedurende het CPT-proces voor grote taalmodellen. We richten ons specifiek op hoe de prestaties in het algemene en downstream domein evolueren bij elke trainingsstap, waarbij domeinprestaties worden gemeten via validatieverliezen. We hebben geobserveerd dat de CPT-verliescurve fundamenteel de overgang van één curve naar een andere verborgen curve karakteriseert, en kan worden beschreven door de effecten van distributieverschuiving en leerrate-afname te ontkoppelen. We leiden een CPT-schaalwet af die deze twee factoren combineert, waardoor het mogelijk wordt om het verlies te voorspellen bij elke (continue) trainingsstap en over verschillende leerrate schema's (LRS) in CPT. Onze formulering biedt een uitgebreid begrip van verschillende kritische factoren in CPT, waaronder verliespotentieel, piekleerrate, trainingsstappen, replay-ratio, enz. Bovendien kan onze aanpak worden aangepast om trainingshyperparameters af te stemmen op verschillende CPT-doelen, zoals het balanceren van algemene en domeinspecifieke prestaties. Uitgebreide experimenten tonen aan dat onze schaalwet standhoudt over verschillende CPT-datasets en trainingshyperparameters.
English
Continual Pre-Training (CPT) has become a popular and effective method to
apply strong foundation models to specific downstream tasks. In this work, we
explore the learning dynamics throughout the CPT process for large language
models. We specifically focus on how general and downstream domain performance
evolves at each training step, with domain performance measured via validation
losses. We have observed that the CPT loss curve fundamentally characterizes
the transition from one curve to another hidden curve, and could be described
by decoupling the effects of distribution shift and learning rate annealing. We
derive a CPT scaling law that combines the two factors, enabling the prediction
of loss at any (continual) training steps and across learning rate schedules
(LRS) in CPT. Our formulation presents a comprehensive understanding of several
critical factors in CPT, including loss potential, peak learning rate, training
steps, replay ratio, etc. Moreover, our approach can be adapted to customize
training hyper-parameters to different CPT goals such as balancing general and
domain-specific performance. Extensive experiments demonstrate that our scaling
law holds across various CPT datasets and training hyper-parameters.Summary
AI-Generated Summary