Promouvoir l'exploration dans Adam à mémoire augmentée en utilisant des moments critiques
Promoting Exploration in Memory-Augmented Adam using Critical Momenta
July 18, 2023
Auteurs: Pranshu Malviya, Gonçalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu, Sarath Chandar
cs.AI
Résumé
Les optimiseurs adaptatifs basés sur le gradient, en particulier Adam, ont marqué leur empreinte dans l'entraînement de modèles d'apprentissage profond à grande échelle. La force de ces optimiseurs réside dans leur convergence rapide tout en étant plus robustes au choix des hyperparamètres. Cependant, ils généralisent souvent moins bien que les méthodes non adaptatives. Des études récentes ont lié cet écart de performance à la sélection de minima plats : les méthodes adaptatives ont tendance à trouver des solutions dans des bassins plus abrupts du paysage de la fonction de perte, ce qui nuit à la généralisation. Pour surmonter ce problème, nous proposons une nouvelle version d'Adam augmentée d'une mémoire qui favorise l'exploration vers des minima plus plats en utilisant un tampon de termes de momentum critiques pendant l'entraînement. Intuitivement, l'utilisation du tampon fait que l'optimiseur dépasse le bassin d'attraction si celui-ci n'est pas suffisamment large. Nous démontrons empiriquement que notre méthode améliore les performances de plusieurs variantes d'Adam sur des tâches standards de modélisation du langage supervisé et de classification d'images.
English
Adaptive gradient-based optimizers, particularly Adam, have left their mark
in training large-scale deep learning models. The strength of such optimizers
is that they exhibit fast convergence while being more robust to hyperparameter
choice. However, they often generalize worse than non-adaptive methods. Recent
studies have tied this performance gap to flat minima selection: adaptive
methods tend to find solutions in sharper basins of the loss landscape, which
in turn hurts generalization. To overcome this issue, we propose a new
memory-augmented version of Adam that promotes exploration towards flatter
minima by using a buffer of critical momentum terms during training.
Intuitively, the use of the buffer makes the optimizer overshoot outside the
basin of attraction if it is not wide enough. We empirically show that our
method improves the performance of several variants of Adam on standard
supervised language modelling and image classification tasks.