Promouvoir l'exploration dans Adam à mémoire augmentée en utilisant des moments critiques

Résumé

Les optimiseurs adaptatifs basés sur le gradient, en particulier Adam, ont marqué leur empreinte dans l'entraînement de modèles d'apprentissage profond à grande échelle. La force de ces optimiseurs réside dans leur convergence rapide tout en étant plus robustes au choix des hyperparamètres. Cependant, ils généralisent souvent moins bien que les méthodes non adaptatives. Des études récentes ont lié cet écart de performance à la sélection de minima plats : les méthodes adaptatives ont tendance à trouver des solutions dans des bassins plus abrupts du paysage de la fonction de perte, ce qui nuit à la généralisation. Pour surmonter ce problème, nous proposons une nouvelle version d'Adam augmentée d'une mémoire qui favorise l'exploration vers des minima plus plats en utilisant un tampon de termes de momentum critiques pendant l'entraînement. Intuitivement, l'utilisation du tampon fait que l'optimiseur dépasse le bassin d'attraction si celui-ci n'est pas suffisamment large. Nous démontrons empiriquement que notre méthode améliore les performances de plusieurs variantes d'Adam sur des tâches standards de modélisation du langage supervisé et de classification d'images.

English

Adaptive gradient-based optimizers, particularly Adam, have left their mark in training large-scale deep learning models. The strength of such optimizers is that they exhibit fast convergence while being more robust to hyperparameter choice. However, they often generalize worse than non-adaptive methods. Recent studies have tied this performance gap to flat minima selection: adaptive methods tend to find solutions in sharper basins of the loss landscape, which in turn hurts generalization. To overcome this issue, we propose a new memory-augmented version of Adam that promotes exploration towards flatter minima by using a buffer of critical momentum terms during training. Intuitively, the use of the buffer makes the optimizer overshoot outside the basin of attraction if it is not wide enough. We empirically show that our method improves the performance of several variants of Adam on standard supervised language modelling and image classification tasks.

Promouvoir l'exploration dans Adam à mémoire augmentée en utilisant des moments critiques

Promoting Exploration in Memory-Augmented Adam using Critical Momenta

Résumé

Support