Vorsichtige Optimierer: Verbesserung des Trainings mit einer Codezeile

papers.abstract

AdamW war der Standard-Optimierer für Transformer-Pretraining. Seit vielen Jahren sucht unsere Gemeinschaft nach schnelleren und stabileren Optimierern mit ausschließlich positiven Ergebnissen. In dieser Arbeit schlagen wir eine einfache Modifikation in Pytorch für jeden auf Momentum basierenden Optimierer vor, den wir Vorsichtigen Optimierer nennen, z.B. C-AdamW und C-Lion. Unser theoretisches Ergebnis zeigt, dass diese Modifikation die Hamilton-Funktion von Adam bewahrt und die Konvergenzgarantie unter der Lyapunov-Analyse nicht beeinträchtigt. Darüber hinaus wird durch unser theoretisches Verständnis eine ganze neue Familie von Optimierern aufgedeckt. Unter ihnen wählen wir den einfachsten für empirische Experimente aus, die eine Beschleunigung beim Llama- und MAE-Pretraining um bis zu 1,47-fache zeigen. Der Code ist verfügbar unter https://github.com/kyleliang919/C-Optim

English

AdamW has been the default optimizer for transformer pretraining. For many years, our community searches for faster and more stable optimizers with only constraint positive outcomes. In this work, we propose a single-line modification in Pytorch to any momentum-based optimizer, which we rename Cautious Optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that this modification preserves Adam's Hamiltonian function and it does not break the convergence guarantee under the Lyapunov analysis. In addition, a whole new family of optimizers is revealed by our theoretical insight. Among them, we pick the simplest one for empirical experiments, showing speed-up on Llama and MAE pretraining up to 1.47times. Code is available at https://github.com/kyleliang919/C-Optim

Vorsichtige Optimierer: Verbesserung des Trainings mit einer Codezeile

Cautious Optimizers: Improving Training with One Line of Code

papers.abstract

Support