De Weg Minder Gepland
The Road Less Scheduled
May 24, 2024
Auteurs: Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky
cs.AI
Samenvatting
Bestaande leersnelheidsschema's die geen specificatie vereisen van de
optimalisatiestopstap T, worden sterk overtroffen door leersnelheidsschema's
die afhankelijk zijn van T. Wij stellen een aanpak voor die de noodzaak van
deze stopstap vermijdt door het gebruik van schema's volledig achterwege te
laten, terwijl het state-of-the-art prestaties vertoont in vergelijking met
schema's voor een breed scala aan problemen, van convexe problemen tot
grootschalige deep learning-problemen. Onze Schedule-Free aanpak introduceert
geen extra hyperparameters bovenop standaard optimalisatie-algoritmen met
momentum. Onze methode is een direct gevolg van een nieuwe theorie die wij
ontwikkelen en die schema's en iteratiegemiddelden verenigt. Een open source
implementatie van onze methode is beschikbaar
(https://github.com/facebookresearch/schedule_free).
English
Existing learning rate schedules that do not require specification of the
optimization stopping step T are greatly out-performed by learning rate
schedules that depend on T. We propose an approach that avoids the need for
this stopping time by eschewing the use of schedules entirely, while exhibiting
state-of-the-art performance compared to schedules across a wide family of
problems ranging from convex problems to large-scale deep learning problems.
Our Schedule-Free approach introduces no additional hyper-parameters over
standard optimizers with momentum. Our method is a direct consequence of a new
theory we develop that unifies scheduling and iterate averaging. An open source
implementation of our method is available
(https://github.com/facebookresearch/schedule_free).