ChatPaper.aiChatPaper

Promovendo a Exploração no Adam Aumentado por Memória utilizando Momentos Críticos

Promoting Exploration in Memory-Augmented Adam using Critical Momenta

July 18, 2023
Autores: Pranshu Malviya, Gonçalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu, Sarath Chandar
cs.AI

Resumo

Otimizadores baseados em gradiente adaptativos, particularmente o Adam, deixaram sua marca no treinamento de modelos de aprendizado profundo em larga escala. A força desses otimizadores reside no fato de exibirem convergência rápida enquanto são mais robustos à escolha de hiperparâmetros. No entanto, eles frequentemente generalizam pior do que métodos não adaptativos. Estudos recentes associaram essa lacuna de desempenho à seleção de mínimos planos: métodos adaptativos tendem a encontrar soluções em bacias mais estreitas da paisagem de perda, o que, por sua vez, prejudica a generalização. Para superar esse problema, propomos uma nova versão do Adam aumentada com memória, que promove a exploração em direção a mínimos mais planos ao utilizar um buffer de termos de momento críticos durante o treinamento. Intuitivamente, o uso do buffer faz com que o otimizador ultrapasse a bacia de atração se ela não for suficientemente ampla. Empiricamente, demonstramos que nosso método melhora o desempenho de várias variantes do Adam em tarefas padrão de modelagem de linguagem supervisionada e classificação de imagens.
English
Adaptive gradient-based optimizers, particularly Adam, have left their mark in training large-scale deep learning models. The strength of such optimizers is that they exhibit fast convergence while being more robust to hyperparameter choice. However, they often generalize worse than non-adaptive methods. Recent studies have tied this performance gap to flat minima selection: adaptive methods tend to find solutions in sharper basins of the loss landscape, which in turn hurts generalization. To overcome this issue, we propose a new memory-augmented version of Adam that promotes exploration towards flatter minima by using a buffer of critical momentum terms during training. Intuitively, the use of the buffer makes the optimizer overshoot outside the basin of attraction if it is not wide enough. We empirically show that our method improves the performance of several variants of Adam on standard supervised language modelling and image classification tasks.
PDF20February 8, 2026