Het bevorderen van exploratie in geheugen-augmented Adam met behulp van kritieke momenta

Samenvatting

Adaptieve op gradiënten gebaseerde optimalisatiemethoden, met name Adam, hebben hun stempel gedrukt op het trainen van grootschalige deep learning-modellen. De kracht van dergelijke optimalisatiemethoden ligt in het feit dat ze snelle convergentie vertonen terwijl ze robuuster zijn tegen keuzes van hyperparameters. Echter, ze generaliseren vaak slechter dan niet-adaptieve methoden. Recente studies hebben dit prestatieverschil gekoppeld aan de selectie van vlakke minima: adaptieve methoden hebben de neiging oplossingen te vinden in scherpere bassins van het verlieslandschap, wat op zijn beurt de generalisatie schaadt. Om dit probleem te overwinnen, stellen we een nieuwe geheugen-augmentatieversie van Adam voor die exploratie richting vlakkere minima bevordert door gebruik te maken van een buffer van kritieke momentumtermen tijdens het trainen. Intuïtief zorgt het gebruik van de buffer ervoor dat de optimalisatiemethode buiten het aantrekkingsbassin overschiet als dit niet breed genoeg is. We tonen empirisch aan dat onze methode de prestaties van verschillende varianten van Adam verbetert op standaard taken voor supervised taalmodellering en beeldclassificatie.

English

Adaptive gradient-based optimizers, particularly Adam, have left their mark in training large-scale deep learning models. The strength of such optimizers is that they exhibit fast convergence while being more robust to hyperparameter choice. However, they often generalize worse than non-adaptive methods. Recent studies have tied this performance gap to flat minima selection: adaptive methods tend to find solutions in sharper basins of the loss landscape, which in turn hurts generalization. To overcome this issue, we propose a new memory-augmented version of Adam that promotes exploration towards flatter minima by using a buffer of critical momentum terms during training. Intuitively, the use of the buffer makes the optimizer overshoot outside the basin of attraction if it is not wide enough. We empirically show that our method improves the performance of several variants of Adam on standard supervised language modelling and image classification tasks.

Het bevorderen van exploratie in geheugen-augmented Adam met behulp van kritieke momenta

Promoting Exploration in Memory-Augmented Adam using Critical Momenta

Samenvatting

Support