Promovendo a Exploração no Adam Aumentado por Memória utilizando Momentos Críticos
Promoting Exploration in Memory-Augmented Adam using Critical Momenta
July 18, 2023
Autores: Pranshu Malviya, Gonçalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu, Sarath Chandar
cs.AI
Resumo
Otimizadores baseados em gradiente adaptativos, particularmente o Adam, deixaram sua marca no treinamento de modelos de aprendizado profundo em larga escala. A força desses otimizadores reside no fato de exibirem convergência rápida enquanto são mais robustos à escolha de hiperparâmetros. No entanto, eles frequentemente generalizam pior do que métodos não adaptativos. Estudos recentes associaram essa lacuna de desempenho à seleção de mínimos planos: métodos adaptativos tendem a encontrar soluções em bacias mais estreitas da paisagem de perda, o que, por sua vez, prejudica a generalização. Para superar esse problema, propomos uma nova versão do Adam aumentada com memória, que promove a exploração em direção a mínimos mais planos ao utilizar um buffer de termos de momento críticos durante o treinamento. Intuitivamente, o uso do buffer faz com que o otimizador ultrapasse a bacia de atração se ela não for suficientemente ampla. Empiricamente, demonstramos que nosso método melhora o desempenho de várias variantes do Adam em tarefas padrão de modelagem de linguagem supervisionada e classificação de imagens.
English
Adaptive gradient-based optimizers, particularly Adam, have left their mark
in training large-scale deep learning models. The strength of such optimizers
is that they exhibit fast convergence while being more robust to hyperparameter
choice. However, they often generalize worse than non-adaptive methods. Recent
studies have tied this performance gap to flat minima selection: adaptive
methods tend to find solutions in sharper basins of the loss landscape, which
in turn hurts generalization. To overcome this issue, we propose a new
memory-augmented version of Adam that promotes exploration towards flatter
minima by using a buffer of critical momentum terms during training.
Intuitively, the use of the buffer makes the optimizer overshoot outside the
basin of attraction if it is not wide enough. We empirically show that our
method improves the performance of several variants of Adam on standard
supervised language modelling and image classification tasks.