Удивительное согласие между теорией выпуклой оптимизации и расписанием скорости обучения для обучения больших моделей.
The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training
January 31, 2025
Авторы: Fabian Schaipp, Alexander Hägele, Adrien Taylor, Umut Simsekli, Francis Bach
cs.AI
Аннотация
Мы показываем, что графики скорости обучения для тренировки больших моделей ведут себя удивительно похожим образом на границу производительности из теории несглаживающей выпуклой оптимизации. Мы предоставляем границу для постоянного графика с линейным затуханием; в частности, практическая польза затухания отражается в границе из-за отсутствия логарифмических членов. Кроме того, мы показываем, что это удивительно близкое соответствие между теорией оптимизации и практикой может быть использовано для настройки скорости обучения: мы достигаем заметных улучшений при тренировке моделей типа Ллама на 124M и 210M, (i) расширяя график для продолжения обучения с оптимальной скоростью обучения, и (ii) передавая оптимальную скорость обучения между графиками.
English
We show that learning-rate schedules for large model training behave
surprisingly similar to a performance bound from non-smooth convex optimization
theory. We provide a bound for the constant schedule with linear cooldown; in
particular, the practical benefit of cooldown is reflected in the bound due to
the absence of logarithmic terms. Further, we show that this surprisingly close
match between optimization theory and practice can be exploited for
learning-rate tuning: we achieve noticeable improvements for training 124M and
210M Llama-type models by (i) extending the schedule for continued training
with optimal learning-rate, and (ii) transferring the optimal learning-rate
across schedules.Summary
AI-Generated Summary