Динамика обучения в процессе непрерывного предварительного обучения крупных языковых моделей
Learning Dynamics in Continual Pre-Training for Large Language Models
May 12, 2025
Авторы: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
cs.AI
Аннотация
Постоянное предварительное обучение (Continual Pre-Training, CPT) стало популярным и эффективным методом для адаптации мощных базовых моделей к конкретным задачам. В данной работе мы исследуем динамику обучения на протяжении процесса CPT для крупных языковых моделей. Особое внимание уделяется тому, как изменяется производительность на общих и целевых задачах на каждом этапе обучения, где производительность измеряется с помощью потерь на валидации. Мы обнаружили, что кривая потерь CPT фундаментально характеризует переход от одной кривой к другой скрытой кривой, что можно описать, разделив эффекты сдвига распределения и уменьшения скорости обучения. Мы выводим закон масштабирования CPT, который объединяет эти два фактора, позволяя прогнозировать потери на любом этапе (постоянного) обучения и при различных графиках изменения скорости обучения (LRS) в CPT. Наша формулировка предлагает всестороннее понимание нескольких критических факторов в CPT, включая потенциал потерь, пиковую скорость обучения, количество шагов обучения, коэффициент повторения и т.д. Более того, наш подход может быть адаптирован для настройки гиперпараметров обучения в соответствии с различными целями CPT, такими как баланс между общей и доменно-специфической производительностью. Многочисленные эксперименты демонстрируют, что наш закон масштабирования применим к различным наборам данных CPT и гиперпараметрам обучения.
English
Continual Pre-Training (CPT) has become a popular and effective method to
apply strong foundation models to specific downstream tasks. In this work, we
explore the learning dynamics throughout the CPT process for large language
models. We specifically focus on how general and downstream domain performance
evolves at each training step, with domain performance measured via validation
losses. We have observed that the CPT loss curve fundamentally characterizes
the transition from one curve to another hidden curve, and could be described
by decoupling the effects of distribution shift and learning rate annealing. We
derive a CPT scaling law that combines the two factors, enabling the prediction
of loss at any (continual) training steps and across learning rate schedules
(LRS) in CPT. Our formulation presents a comprehensive understanding of several
critical factors in CPT, including loss potential, peak learning rate, training
steps, replay ratio, etc. Moreover, our approach can be adapted to customize
training hyper-parameters to different CPT goals such as balancing general and
domain-specific performance. Extensive experiments demonstrate that our scaling
law holds across various CPT datasets and training hyper-parameters.