La Strada Meno Programmata

Abstract

Gli attuali schemi di regolazione del tasso di apprendimento che non richiedono la specifica del passo di arresto T dell'ottimizzazione sono ampiamente superati dagli schemi che dipendono da T. Proponiamo un approccio che evita la necessità di questo tempo di arresto rinunciando completamente all'uso di schemi, pur dimostrando prestazioni all'avanguardia rispetto agli schemi in un'ampia gamma di problemi, dai problemi convessi ai problemi di deep learning su larga scala. Il nostro approccio "Schedule-Free" non introduce ulteriori iperparametri rispetto agli ottimizzatori standard con momento. Il nostro metodo è una diretta conseguenza di una nuova teoria che abbiamo sviluppato, la quale unifica la regolazione del tasso di apprendimento e la media delle iterazioni. Un'implementazione open source del nostro metodo è disponibile (https://github.com/facebookresearch/schedule_free).

English

Existing learning rate schedules that do not require specification of the optimization stopping step T are greatly out-performed by learning rate schedules that depend on T. We propose an approach that avoids the need for this stopping time by eschewing the use of schedules entirely, while exhibiting state-of-the-art performance compared to schedules across a wide family of problems ranging from convex problems to large-scale deep learning problems. Our Schedule-Free approach introduces no additional hyper-parameters over standard optimizers with momentum. Our method is a direct consequence of a new theory we develop that unifies scheduling and iterate averaging. An open source implementation of our method is available (https://github.com/facebookresearch/schedule_free).

La Strada Meno Programmata

The Road Less Scheduled

Abstract

Support