Fomento de la Exploración en Adam Aumentado con Memoria mediante Momentos Críticos
Promoting Exploration in Memory-Augmented Adam using Critical Momenta
July 18, 2023
Autores: Pranshu Malviya, Gonçalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu, Sarath Chandar
cs.AI
Resumen
Los optimizadores basados en gradientes adaptativos, particularmente Adam, han dejado su huella en el entrenamiento de modelos de aprendizaje profundo a gran escala. La fortaleza de estos optimizadores radica en que exhiben una convergencia rápida mientras son más robustos a la elección de hiperparámetros. Sin embargo, a menudo generalizan peor que los métodos no adaptativos. Estudios recientes han vinculado esta brecha de rendimiento con la selección de mínimos planos: los métodos adaptativos tienden a encontrar soluciones en cuencas más pronunciadas del paisaje de pérdida, lo que a su vez perjudica la generalización. Para superar este problema, proponemos una nueva versión de Adam aumentada con memoria que promueve la exploración hacia mínimos más planos mediante el uso de un búfer de términos de momento críticos durante el entrenamiento. Intuitivamente, el uso del búfer hace que el optimizador sobrepase la cuenca de atracción si esta no es lo suficientemente amplia. Demostramos empíricamente que nuestro método mejora el rendimiento de varias variantes de Adam en tareas estándar de modelado de lenguaje supervisado y clasificación de imágenes.
English
Adaptive gradient-based optimizers, particularly Adam, have left their mark
in training large-scale deep learning models. The strength of such optimizers
is that they exhibit fast convergence while being more robust to hyperparameter
choice. However, they often generalize worse than non-adaptive methods. Recent
studies have tied this performance gap to flat minima selection: adaptive
methods tend to find solutions in sharper basins of the loss landscape, which
in turn hurts generalization. To overcome this issue, we propose a new
memory-augmented version of Adam that promotes exploration towards flatter
minima by using a buffer of critical momentum terms during training.
Intuitively, the use of the buffer makes the optimizer overshoot outside the
basin of attraction if it is not wide enough. We empirically show that our
method improves the performance of several variants of Adam on standard
supervised language modelling and image classification tasks.