ChatPaper.aiChatPaper

El Camino Menos Planificado

The Road Less Scheduled

May 24, 2024
Autores: Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky
cs.AI

Resumen

Los programas de tasas de aprendizaje existentes que no requieren la especificación del paso de parada de optimización T son superados ampliamente por los programas de tasas de aprendizaje que dependen de T. Proponemos un enfoque que evita la necesidad de este tiempo de parada al prescindir completamente del uso de programas, mientras exhibe un rendimiento de vanguardia en comparación con los programas en una amplia gama de problemas, desde problemas convexos hasta problemas de aprendizaje profundo a gran escala. Nuestro enfoque Sin Programa no introduce hiperparámetros adicionales sobre los optimizadores estándar con momento. Nuestro método es una consecuencia directa de una nueva teoría que desarrollamos y que unifica la programación y el promediado de iteraciones. Una implementación de código abierto de nuestro método está disponible (https://github.com/facebookresearch/schedule_free).
English
Existing learning rate schedules that do not require specification of the optimization stopping step T are greatly out-performed by learning rate schedules that depend on T. We propose an approach that avoids the need for this stopping time by eschewing the use of schedules entirely, while exhibiting state-of-the-art performance compared to schedules across a wide family of problems ranging from convex problems to large-scale deep learning problems. Our Schedule-Free approach introduces no additional hyper-parameters over standard optimizers with momentum. Our method is a direct consequence of a new theory we develop that unifies scheduling and iterate averaging. An open source implementation of our method is available (https://github.com/facebookresearch/schedule_free).

Summary

AI-Generated Summary

PDF287December 15, 2024