Otimizadores Cautelosos: Melhorando o Treinamento com Uma Linha de Código

Resumo

AdamW tem sido o otimizador padrão para pré-treinamento de transformers. Por muitos anos, nossa comunidade tem buscado otimizadores mais rápidos e estáveis com resultados positivos restritos. Neste trabalho, propomos uma modificação de uma única linha no Pytorch para qualquer otimizador baseado em momento, que renomeamos como Otimizador Cauteloso, por exemplo, C-AdamW e C-Lion. Nosso resultado teórico mostra que essa modificação preserva a função Hamiltoniana do Adam e não quebra a garantia de convergência sob a análise de Lyapunov. Além disso, uma nova família inteira de otimizadores é revelada por nossa visão teórica. Dentre eles, escolhemos o mais simples para experimentos empíricos, demonstrando aceleração no pré-treinamento de Llama e MAE em até 1,47 vezes. O código está disponível em https://github.com/kyleliang919/C-Optim

English

AdamW has been the default optimizer for transformer pretraining. For many years, our community searches for faster and more stable optimizers with only constraint positive outcomes. In this work, we propose a single-line modification in Pytorch to any momentum-based optimizer, which we rename Cautious Optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that this modification preserves Adam's Hamiltonian function and it does not break the convergence guarantee under the Lyapunov analysis. In addition, a whole new family of optimizers is revealed by our theoretical insight. Among them, we pick the simplest one for empirical experiments, showing speed-up on Llama and MAE pretraining up to 1.47times. Code is available at https://github.com/kyleliang919/C-Optim

Otimizadores Cautelosos: Melhorando o Treinamento com Uma Linha de Código

Cautious Optimizers: Improving Training with One Line of Code

Resumo

Support