Förderung der Exploration in speichererweitertem Adam durch kritische Momente
Promoting Exploration in Memory-Augmented Adam using Critical Momenta
July 18, 2023
Autoren: Pranshu Malviya, Gonçalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu, Sarath Chandar
cs.AI
Zusammenfassung
Adaptive gradientenbasierte Optimierer, insbesondere Adam, haben ihre Spuren im Training großskaliger Deep-Learning-Modelle hinterlassen. Die Stärke solcher Optimierer liegt darin, dass sie eine schnelle Konvergenz zeigen und gleichzeitig robuster gegenüber der Wahl der Hyperparameter sind. Allerdings generalisieren sie oft schlechter als nicht-adaptive Methoden. Jüngste Studien haben diese Leistungslücke mit der Auswahl flacher Minima in Verbindung gebracht: Adaptive Methoden neigen dazu, Lösungen in schärferen Becken der Verlustlandschaft zu finden, was wiederum die Generalisierung beeinträchtigt. Um dieses Problem zu überwinden, schlagen wir eine neue speichergestützte Version von Adam vor, die die Exploration hin zu flacheren Minima fördert, indem während des Trainings ein Puffer kritischer Momentum-Terme verwendet wird. Intuitiv führt die Verwendung des Puffers dazu, dass der Optimierer über das Anziehungsbecken hinaus schießt, wenn dieses nicht breit genug ist. Wir zeigen empirisch, dass unsere Methode die Leistung mehrerer Varianten von Adam bei standardmäßigen überwachten Sprachmodellierungs- und Bildklassifizierungsaufgaben verbessert.
English
Adaptive gradient-based optimizers, particularly Adam, have left their mark
in training large-scale deep learning models. The strength of such optimizers
is that they exhibit fast convergence while being more robust to hyperparameter
choice. However, they often generalize worse than non-adaptive methods. Recent
studies have tied this performance gap to flat minima selection: adaptive
methods tend to find solutions in sharper basins of the loss landscape, which
in turn hurts generalization. To overcome this issue, we propose a new
memory-augmented version of Adam that promotes exploration towards flatter
minima by using a buffer of critical momentum terms during training.
Intuitively, the use of the buffer makes the optimizer overshoot outside the
basin of attraction if it is not wide enough. We empirically show that our
method improves the performance of several variants of Adam on standard
supervised language modelling and image classification tasks.