La Strada Meno Programmata
The Road Less Scheduled
May 24, 2024
Autori: Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky
cs.AI
Abstract
Gli attuali schemi di regolazione del tasso di apprendimento che non richiedono la specifica del passo di arresto T dell'ottimizzazione sono ampiamente superati dagli schemi che dipendono da T. Proponiamo un approccio che evita la necessità di questo tempo di arresto rinunciando completamente all'uso di schemi, pur dimostrando prestazioni all'avanguardia rispetto agli schemi in un'ampia gamma di problemi, dai problemi convessi ai problemi di deep learning su larga scala. Il nostro approccio "Schedule-Free" non introduce ulteriori iperparametri rispetto agli ottimizzatori standard con momento. Il nostro metodo è una diretta conseguenza di una nuova teoria che abbiamo sviluppato, la quale unifica la regolazione del tasso di apprendimento e la media delle iterazioni. Un'implementazione open source del nostro metodo è disponibile (https://github.com/facebookresearch/schedule_free).
English
Existing learning rate schedules that do not require specification of the
optimization stopping step T are greatly out-performed by learning rate
schedules that depend on T. We propose an approach that avoids the need for
this stopping time by eschewing the use of schedules entirely, while exhibiting
state-of-the-art performance compared to schedules across a wide family of
problems ranging from convex problems to large-scale deep learning problems.
Our Schedule-Free approach introduces no additional hyper-parameters over
standard optimizers with momentum. Our method is a direct consequence of a new
theory we develop that unifies scheduling and iterate averaging. An open source
implementation of our method is available
(https://github.com/facebookresearch/schedule_free).