Optimiseurs Prudents : Améliorer l'Entraînement avec une Ligne de Code
Cautious Optimizers: Improving Training with One Line of Code
November 25, 2024
Auteurs: Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
cs.AI
Résumé
AdamW a été l'optimiseur par défaut pour la pré-formation des transformers. Pendant de nombreuses années, notre communauté recherche des optimiseurs plus rapides et plus stables n'ayant que des résultats positifs. Dans ce travail, nous proposons une modification en une seule ligne dans Pytorch pour tout optimiseur basé sur le momentum, que nous renommons Optimiseur Prudent, par exemple C-AdamW et C-Lion. Notre résultat théorique montre que cette modification préserve la fonction hamiltonienne d'Adam et ne rompt pas la garantie de convergence selon l'analyse de Lyapunov. De plus, une toute nouvelle famille d'optimiseurs est révélée par notre compréhension théorique. Parmi eux, nous choisissons le plus simple pour des expériences empiriques, montrant une accélération de la pré-formation de Llama et MAE jusqu'à 1,47 fois. Le code est disponible sur https://github.com/kyleliang919/C-Optim
English
AdamW has been the default optimizer for transformer pretraining. For many
years, our community searches for faster and more stable optimizers with only
constraint positive outcomes. In this work, we propose a single-line
modification in Pytorch to any momentum-based optimizer, which we rename
Cautious Optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that
this modification preserves Adam's Hamiltonian function and it does not break
the convergence guarantee under the Lyapunov analysis. In addition, a whole new
family of optimizers is revealed by our theoretical insight. Among them, we
pick the simplest one for empirical experiments, showing speed-up on Llama and
MAE pretraining up to 1.47times. Code is available at
https://github.com/kyleliang919/C-OptimSummary
AI-Generated Summary