Vorsichtige Optimierer: Verbesserung des Trainings mit einer Codezeile
Cautious Optimizers: Improving Training with One Line of Code
November 25, 2024
Autoren: Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
cs.AI
Zusammenfassung
AdamW war der Standard-Optimierer für Transformer-Pretraining. Seit vielen Jahren sucht unsere Gemeinschaft nach schnelleren und stabileren Optimierern mit ausschließlich positiven Ergebnissen. In dieser Arbeit schlagen wir eine einfache Modifikation in Pytorch für jeden auf Momentum basierenden Optimierer vor, den wir Vorsichtigen Optimierer nennen, z.B. C-AdamW und C-Lion. Unser theoretisches Ergebnis zeigt, dass diese Modifikation die Hamilton-Funktion von Adam bewahrt und die Konvergenzgarantie unter der Lyapunov-Analyse nicht beeinträchtigt. Darüber hinaus wird durch unser theoretisches Verständnis eine ganze neue Familie von Optimierern aufgedeckt. Unter ihnen wählen wir den einfachsten für empirische Experimente aus, die eine Beschleunigung beim Llama- und MAE-Pretraining um bis zu 1,47-fache zeigen. Der Code ist verfügbar unter https://github.com/kyleliang919/C-Optim
English
AdamW has been the default optimizer for transformer pretraining. For many
years, our community searches for faster and more stable optimizers with only
constraint positive outcomes. In this work, we propose a single-line
modification in Pytorch to any momentum-based optimizer, which we rename
Cautious Optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that
this modification preserves Adam's Hamiltonian function and it does not break
the convergence guarantee under the Lyapunov analysis. In addition, a whole new
family of optimizers is revealed by our theoretical insight. Among them, we
pick the simplest one for empirical experiments, showing speed-up on Llama and
MAE pretraining up to 1.47times. Code is available at
https://github.com/kyleliang919/C-OptimSummary
AI-Generated Summary