Le Chemin Moins Planifié
The Road Less Scheduled
May 24, 2024
Auteurs: Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky
cs.AI
Résumé
Les stratégies de taux d'apprentissage existantes qui ne nécessitent pas la spécification de l'étape d'arrêt de l'optimisation T sont largement surpassées par les stratégies de taux d'apprentissage qui dépendent de T. Nous proposons une approche qui évite la nécessité de ce temps d'arrêt en renonçant entièrement à l'utilisation de stratégies, tout en affichant des performances de pointe par rapport aux stratégies sur une large famille de problèmes allant des problèmes convexes aux problèmes d'apprentissage profond à grande échelle. Notre approche "Schedule-Free" n'introduit aucun hyperparamètre supplémentaire par rapport aux optimiseurs standard avec momentum. Notre méthode découle directement d'une nouvelle théorie que nous développons, qui unifie la planification et la moyenne des itérations. Une implémentation open source de notre méthode est disponible (https://github.com/facebookresearch/schedule_free).
English
Existing learning rate schedules that do not require specification of the
optimization stopping step T are greatly out-performed by learning rate
schedules that depend on T. We propose an approach that avoids the need for
this stopping time by eschewing the use of schedules entirely, while exhibiting
state-of-the-art performance compared to schedules across a wide family of
problems ranging from convex problems to large-scale deep learning problems.
Our Schedule-Free approach introduces no additional hyper-parameters over
standard optimizers with momentum. Our method is a direct consequence of a new
theory we develop that unifies scheduling and iterate averaging. An open source
implementation of our method is available
(https://github.com/facebookresearch/schedule_free).Summary
AI-Generated Summary