Осторожные оптимизаторы: улучшение обучения одной строкой кода

Аннотация

AdamW был выбранным оптимизатором для предварительного обучения трансформера. На протяжении многих лет наше сообщество искало более быстрые и стабильные оптимизаторы с исключительно положительными результатами. В данной работе мы предлагаем однострочное изменение в Pytorch к любому оптимизатору на основе импульса, который мы переименовываем в Осторожный Оптимизатор, например, C-AdamW и C-Lion. Наш теоретический результат показывает, что это изменение сохраняет гамильтонианскую функцию Адама и не нарушает гарантию сходимости в рамках анализа Ляпунова. Кроме того, наше теоретическое понимание раскрывает целое семейство оптимизаторов. Из них мы выбираем самый простой для эмпирических экспериментов, показывающих ускорение на предварительном обучении Лама и MAE до 1,47 раза. Код доступен по ссылке https://github.com/kyleliang919/C-Optim

English

AdamW has been the default optimizer for transformer pretraining. For many years, our community searches for faster and more stable optimizers with only constraint positive outcomes. In this work, we propose a single-line modification in Pytorch to any momentum-based optimizer, which we rename Cautious Optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that this modification preserves Adam's Hamiltonian function and it does not break the convergence guarantee under the Lyapunov analysis. In addition, a whole new family of optimizers is revealed by our theoretical insight. Among them, we pick the simplest one for empirical experiments, showing speed-up on Llama and MAE pretraining up to 1.47times. Code is available at https://github.com/kyleliang919/C-Optim

Осторожные оптимизаторы: улучшение обучения одной строкой кода

Cautious Optimizers: Improving Training with One Line of Code

Аннотация

Support