Менее запланированная дорога
The Road Less Scheduled
May 24, 2024
Авторы: Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky
cs.AI
Аннотация
Существующие графики скорости обучения, не требующие указания шага остановки оптимизации T, значительно уступают графикам скорости обучения, зависящим от T. Мы предлагаем подход, который избегает необходимости указания этого времени остановки, отказываясь от использования графиков вообще, при этом демонстрируя современную производительность по сравнению с графиками на широком спектре задач, начиная от выпуклых проблем до проблем глубокого обучения большого масштаба. Наш подход без графиков не вводит дополнительных гиперпараметров по сравнению с стандартными оптимизаторами с импульсом. Наш метод является прямым следствием новой теории, которую мы разрабатываем, объединяющей планирование и усреднение итераций. Open source реализация нашего метода доступна по ссылке (https://github.com/facebookresearch/schedule_free).
English
Existing learning rate schedules that do not require specification of the
optimization stopping step T are greatly out-performed by learning rate
schedules that depend on T. We propose an approach that avoids the need for
this stopping time by eschewing the use of schedules entirely, while exhibiting
state-of-the-art performance compared to schedules across a wide family of
problems ranging from convex problems to large-scale deep learning problems.
Our Schedule-Free approach introduces no additional hyper-parameters over
standard optimizers with momentum. Our method is a direct consequence of a new
theory we develop that unifies scheduling and iterate averaging. An open source
implementation of our method is available
(https://github.com/facebookresearch/schedule_free).