Voorzichtige optimaliseerders: Training verbeteren met één regel code
Cautious Optimizers: Improving Training with One Line of Code
November 25, 2024
Auteurs: Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
cs.AI
Samenvatting
AdamW is al jaren de standaard optimizer geweest voor transformer pretraining. Onze gemeenschap is al geruime tijd op zoek naar snellere en stabielere optimizers met uitsluitend positieve resultaten. In dit werk stellen we een enkele aanpassing voor in Pytorch aan elke op momentum gebaseerde optimizer, die we omdopen tot Voorzichtige Optimizer, bijvoorbeeld C-AdamW en C-Lion. Ons theoretische resultaat toont aan dat deze aanpassing de Hamiltoniaanse functie van Adam behoudt en de convergentiegarantie niet verbreekt onder de Lyapunov-analyse. Bovendien onthult ons theoretisch inzicht een geheel nieuwe familie van optimizers. Daaruit kiezen we de eenvoudigste voor empirische experimenten, waarbij we een versnelling laten zien bij Llama en MAE pretraining tot wel 1.47 keer. De code is beschikbaar op https://github.com/kyleliang919/C-Optim
English
AdamW has been the default optimizer for transformer pretraining. For many
years, our community searches for faster and more stable optimizers with only
constraint positive outcomes. In this work, we propose a single-line
modification in Pytorch to any momentum-based optimizer, which we rename
Cautious Optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that
this modification preserves Adam's Hamiltonian function and it does not break
the convergence guarantee under the Lyapunov analysis. In addition, a whole new
family of optimizers is revealed by our theoretical insight. Among them, we
pick the simplest one for empirical experiments, showing speed-up on Llama and
MAE pretraining up to 1.47times. Code is available at
https://github.com/kyleliang919/C-OptimSummary
AI-Generated Summary