Lernprozesse beim kontinuierlichen Vortraining großer Sprachmodelle
Learning Dynamics in Continual Pre-Training for Large Language Models
May 12, 2025
Autoren: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
cs.AI
Zusammenfassung
Continual Pre-Training (CPT) hat sich zu einer beliebten und effektiven Methode entwickelt, um leistungsstarke Basismodelle auf spezifische Downstream-Aufgaben anzuwenden. In dieser Arbeit untersuchen wir die Lern-Dynamik während des CPT-Prozesses für große Sprachmodelle. Wir konzentrieren uns insbesondere darauf, wie sich die allgemeine und die domänenspezifische Leistung in jedem Trainingsschritt entwickeln, wobei die Domänenleistung über Validierungsverluste gemessen wird. Wir haben beobachtet, dass die CPT-Verlustkurve grundsätzlich den Übergang von einer Kurve zu einer anderen verborgenen Kurve charakterisiert und durch die Entkopplung der Effekte von Verschiebungen in der Verteilung und der Lernraten-Anpassung beschrieben werden kann. Wir leiten ein CPT-Skalierungsgesetz ab, das diese beiden Faktoren kombiniert und es ermöglicht, den Verlust zu jedem (kontinuierlichen) Trainingsschritt und über verschiedene Lernratenpläne (LRS) in CPT vorherzusagen. Unsere Formulierung bietet ein umfassendes Verständnis mehrerer kritischer Faktoren in CPT, einschließlich Verlustpotenzial, Spitzenlernrate, Trainingsschritte, Replay-Verhältnis usw. Darüber hinaus kann unser Ansatz angepasst werden, um Trainings-Hyperparameter an verschiedene CPT-Ziele wie die Balance zwischen allgemeiner und domänenspezifischer Leistung anzupassen. Umfangreiche Experimente zeigen, dass unser Skalierungsgesetz über verschiedene CPT-Datensätze und Trainings-Hyperparameter hinweg gültig ist.
English
Continual Pre-Training (CPT) has become a popular and effective method to
apply strong foundation models to specific downstream tasks. In this work, we
explore the learning dynamics throughout the CPT process for large language
models. We specifically focus on how general and downstream domain performance
evolves at each training step, with domain performance measured via validation
losses. We have observed that the CPT loss curve fundamentally characterizes
the transition from one curve to another hidden curve, and could be described
by decoupling the effects of distribution shift and learning rate annealing. We
derive a CPT scaling law that combines the two factors, enabling the prediction
of loss at any (continual) training steps and across learning rate schedules
(LRS) in CPT. Our formulation presents a comprehensive understanding of several
critical factors in CPT, including loss potential, peak learning rate, training
steps, replay ratio, etc. Moreover, our approach can be adapted to customize
training hyper-parameters to different CPT goals such as balancing general and
domain-specific performance. Extensive experiments demonstrate that our scaling
law holds across various CPT datasets and training hyper-parameters.Summary
AI-Generated Summary