ChatPaper.aiChatPaper

O Caminho Menos Planejado

The Road Less Scheduled

May 24, 2024
Autores: Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky
cs.AI

Resumo

Os cronogramas de taxa de aprendizagem existentes que não exigem a especificação do passo de parada da otimização T são significativamente superados por cronogramas de taxa de aprendizagem que dependem de T. Propomos uma abordagem que evita a necessidade desse tempo de parada ao abandonar completamente o uso de cronogramas, ao mesmo tempo em que exibe desempenho de ponta em comparação com cronogramas em uma ampla família de problemas, desde problemas convexos até problemas de aprendizado profundo em larga escala. Nossa abordagem "Schedule-Free" não introduz hiperparâmetros adicionais em relação aos otimizadores padrão com momento. Nosso método é uma consequência direta de uma nova teoria que desenvolvemos, que unifica o agendamento e a média de iterações. Uma implementação de código aberto do nosso método está disponível (https://github.com/facebookresearch/schedule_free).
English
Existing learning rate schedules that do not require specification of the optimization stopping step T are greatly out-performed by learning rate schedules that depend on T. We propose an approach that avoids the need for this stopping time by eschewing the use of schedules entirely, while exhibiting state-of-the-art performance compared to schedules across a wide family of problems ranging from convex problems to large-scale deep learning problems. Our Schedule-Free approach introduces no additional hyper-parameters over standard optimizers with momentum. Our method is a direct consequence of a new theory we develop that unifies scheduling and iterate averaging. An open source implementation of our method is available (https://github.com/facebookresearch/schedule_free).
PDF277December 15, 2024