Optimiseurs Prudents : Améliorer l'Entraînement avec une Ligne de Code

papers.abstract

AdamW a été l'optimiseur par défaut pour la pré-formation des transformers. Pendant de nombreuses années, notre communauté recherche des optimiseurs plus rapides et plus stables n'ayant que des résultats positifs. Dans ce travail, nous proposons une modification en une seule ligne dans Pytorch pour tout optimiseur basé sur le momentum, que nous renommons Optimiseur Prudent, par exemple C-AdamW et C-Lion. Notre résultat théorique montre que cette modification préserve la fonction hamiltonienne d'Adam et ne rompt pas la garantie de convergence selon l'analyse de Lyapunov. De plus, une toute nouvelle famille d'optimiseurs est révélée par notre compréhension théorique. Parmi eux, nous choisissons le plus simple pour des expériences empiriques, montrant une accélération de la pré-formation de Llama et MAE jusqu'à 1,47 fois. Le code est disponible sur https://github.com/kyleliang919/C-Optim

English

AdamW has been the default optimizer for transformer pretraining. For many years, our community searches for faster and more stable optimizers with only constraint positive outcomes. In this work, we propose a single-line modification in Pytorch to any momentum-based optimizer, which we rename Cautious Optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that this modification preserves Adam's Hamiltonian function and it does not break the convergence guarantee under the Lyapunov analysis. In addition, a whole new family of optimizers is revealed by our theoretical insight. Among them, we pick the simplest one for empirical experiments, showing speed-up on Llama and MAE pretraining up to 1.47times. Code is available at https://github.com/kyleliang919/C-Optim

Optimiseurs Prudents : Améliorer l'Entraînement avec une Ligne de Code

Cautious Optimizers: Improving Training with One Line of Code

papers.abstract

Support