Otimizadores Cautelosos: Melhorando o Treinamento com Uma Linha de Código
Cautious Optimizers: Improving Training with One Line of Code
November 25, 2024
Autores: Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
cs.AI
Resumo
AdamW tem sido o otimizador padrão para pré-treinamento de transformers. Por muitos anos, nossa comunidade tem buscado otimizadores mais rápidos e estáveis com resultados positivos restritos. Neste trabalho, propomos uma modificação de uma única linha no Pytorch para qualquer otimizador baseado em momento, que renomeamos como Otimizador Cauteloso, por exemplo, C-AdamW e C-Lion. Nosso resultado teórico mostra que essa modificação preserva a função Hamiltoniana do Adam e não quebra a garantia de convergência sob a análise de Lyapunov. Além disso, uma nova família inteira de otimizadores é revelada por nossa visão teórica. Dentre eles, escolhemos o mais simples para experimentos empíricos, demonstrando aceleração no pré-treinamento de Llama e MAE em até 1,47 vezes. O código está disponível em https://github.com/kyleliang919/C-Optim
English
AdamW has been the default optimizer for transformer pretraining. For many
years, our community searches for faster and more stable optimizers with only
constraint positive outcomes. In this work, we propose a single-line
modification in Pytorch to any momentum-based optimizer, which we rename
Cautious Optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that
this modification preserves Adam's Hamiltonian function and it does not break
the convergence guarantee under the Lyapunov analysis. In addition, a whole new
family of optimizers is revealed by our theoretical insight. Among them, we
pick the simplest one for empirical experiments, showing speed-up on Llama and
MAE pretraining up to 1.47times. Code is available at
https://github.com/kyleliang919/C-OptimSummary
AI-Generated Summary