Förderung der Exploration in speichererweitertem Adam durch kritische Momente

papers.abstract

Adaptive gradientenbasierte Optimierer, insbesondere Adam, haben ihre Spuren im Training großskaliger Deep-Learning-Modelle hinterlassen. Die Stärke solcher Optimierer liegt darin, dass sie eine schnelle Konvergenz zeigen und gleichzeitig robuster gegenüber der Wahl der Hyperparameter sind. Allerdings generalisieren sie oft schlechter als nicht-adaptive Methoden. Jüngste Studien haben diese Leistungslücke mit der Auswahl flacher Minima in Verbindung gebracht: Adaptive Methoden neigen dazu, Lösungen in schärferen Becken der Verlustlandschaft zu finden, was wiederum die Generalisierung beeinträchtigt. Um dieses Problem zu überwinden, schlagen wir eine neue speichergestützte Version von Adam vor, die die Exploration hin zu flacheren Minima fördert, indem während des Trainings ein Puffer kritischer Momentum-Terme verwendet wird. Intuitiv führt die Verwendung des Puffers dazu, dass der Optimierer über das Anziehungsbecken hinaus schießt, wenn dieses nicht breit genug ist. Wir zeigen empirisch, dass unsere Methode die Leistung mehrerer Varianten von Adam bei standardmäßigen überwachten Sprachmodellierungs- und Bildklassifizierungsaufgaben verbessert.

English

Adaptive gradient-based optimizers, particularly Adam, have left their mark in training large-scale deep learning models. The strength of such optimizers is that they exhibit fast convergence while being more robust to hyperparameter choice. However, they often generalize worse than non-adaptive methods. Recent studies have tied this performance gap to flat minima selection: adaptive methods tend to find solutions in sharper basins of the loss landscape, which in turn hurts generalization. To overcome this issue, we propose a new memory-augmented version of Adam that promotes exploration towards flatter minima by using a buffer of critical momentum terms during training. Intuitively, the use of the buffer makes the optimizer overshoot outside the basin of attraction if it is not wide enough. We empirically show that our method improves the performance of several variants of Adam on standard supervised language modelling and image classification tasks.

Förderung der Exploration in speichererweitertem Adam durch kritische Momente

Promoting Exploration in Memory-Augmented Adam using Critical Momenta

papers.abstract

Support