Optimizadores Cautelosos: Mejorando el Entrenamiento con una Línea de Código
Cautious Optimizers: Improving Training with One Line of Code
November 25, 2024
Autores: Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
cs.AI
Resumen
AdamW ha sido el optimizador predeterminado para el preentrenamiento de transformadores. Durante muchos años, nuestra comunidad ha buscado optimizadores más rápidos y estables con resultados positivos únicamente. En este trabajo, proponemos una modificación de una sola línea en Pytorch para cualquier optimizador basado en momento, al que renombramos como Optimizador Cauteloso, por ejemplo, C-AdamW y C-Lion. Nuestro resultado teórico muestra que esta modificación conserva la función Hamiltoniana de Adam y no rompe la garantía de convergencia bajo el análisis de Lyapunov. Además, nuestra perspicacia teórica revela toda una nueva familia de optimizadores. Entre ellos, elegimos el más simple para experimentos empíricos, mostrando una aceleración en el preentrenamiento de Llama y MAE de hasta 1.47 veces. El código está disponible en https://github.com/kyleliang919/C-Optim.
English
AdamW has been the default optimizer for transformer pretraining. For many
years, our community searches for faster and more stable optimizers with only
constraint positive outcomes. In this work, we propose a single-line
modification in Pytorch to any momentum-based optimizer, which we rename
Cautious Optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that
this modification preserves Adam's Hamiltonian function and it does not break
the convergence guarantee under the Lyapunov analysis. In addition, a whole new
family of optimizers is revealed by our theoretical insight. Among them, we
pick the simplest one for empirical experiments, showing speed-up on Llama and
MAE pretraining up to 1.47times. Code is available at
https://github.com/kyleliang919/C-OptimSummary
AI-Generated Summary