Fomento de la Exploración en Adam Aumentado con Memoria mediante Momentos Críticos

Resumen

Los optimizadores basados en gradientes adaptativos, particularmente Adam, han dejado su huella en el entrenamiento de modelos de aprendizaje profundo a gran escala. La fortaleza de estos optimizadores radica en que exhiben una convergencia rápida mientras son más robustos a la elección de hiperparámetros. Sin embargo, a menudo generalizan peor que los métodos no adaptativos. Estudios recientes han vinculado esta brecha de rendimiento con la selección de mínimos planos: los métodos adaptativos tienden a encontrar soluciones en cuencas más pronunciadas del paisaje de pérdida, lo que a su vez perjudica la generalización. Para superar este problema, proponemos una nueva versión de Adam aumentada con memoria que promueve la exploración hacia mínimos más planos mediante el uso de un búfer de términos de momento críticos durante el entrenamiento. Intuitivamente, el uso del búfer hace que el optimizador sobrepase la cuenca de atracción si esta no es lo suficientemente amplia. Demostramos empíricamente que nuestro método mejora el rendimiento de varias variantes de Adam en tareas estándar de modelado de lenguaje supervisado y clasificación de imágenes.

English

Adaptive gradient-based optimizers, particularly Adam, have left their mark in training large-scale deep learning models. The strength of such optimizers is that they exhibit fast convergence while being more robust to hyperparameter choice. However, they often generalize worse than non-adaptive methods. Recent studies have tied this performance gap to flat minima selection: adaptive methods tend to find solutions in sharper basins of the loss landscape, which in turn hurts generalization. To overcome this issue, we propose a new memory-augmented version of Adam that promotes exploration towards flatter minima by using a buffer of critical momentum terms during training. Intuitively, the use of the buffer makes the optimizer overshoot outside the basin of attraction if it is not wide enough. We empirically show that our method improves the performance of several variants of Adam on standard supervised language modelling and image classification tasks.

Fomento de la Exploración en Adam Aumentado con Memoria mediante Momentos Críticos

Promoting Exploration in Memory-Augmented Adam using Critical Momenta

Resumen

Support