일정 없는 길
The Road Less Scheduled
May 24, 2024
저자: Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky
cs.AI
초록
최적화 중단 단계 T를 명시할 필요가 없는 기존의 학습률 스케줄링 방법들은 T에 의존하는 학습률 스케줄링 방법에 비해 크게 뒤떨어지는 성능을 보입니다. 우리는 스케줄링을 전혀 사용하지 않으면서도 중단 시간을 지정할 필요를 없애는 접근 방식을 제안하며, 이 방법은 볼록 문제에서 대규모 딥러닝 문제에 이르기까지 다양한 문제군에서 최신 스케줄링 기법들과 비교해 최첨단 성능을 보여줍니다. 우리의 Schedule-Free 접근법은 모멘텀을 사용하는 표준 최적화 기법에 비해 추가적인 하이퍼파라미터를 도입하지 않습니다. 이 방법은 스케줄링과 반복 평균화를 통합하는 새로운 이론에서 직접 도출된 결과입니다. 우리의 방법에 대한 오픈소스 구현체는 (https://github.com/facebookresearch/schedule_free)에서 확인할 수 있습니다.
English
Existing learning rate schedules that do not require specification of the
optimization stopping step T are greatly out-performed by learning rate
schedules that depend on T. We propose an approach that avoids the need for
this stopping time by eschewing the use of schedules entirely, while exhibiting
state-of-the-art performance compared to schedules across a wide family of
problems ranging from convex problems to large-scale deep learning problems.
Our Schedule-Free approach introduces no additional hyper-parameters over
standard optimizers with momentum. Our method is a direct consequence of a new
theory we develop that unifies scheduling and iterate averaging. An open source
implementation of our method is available
(https://github.com/facebookresearch/schedule_free).