Promuovere l'Esplorazione in Adam Aumentato con Memoria utilizzando Momenti Critici

Abstract

Gli ottimizzatori basati su gradienti adattivi, in particolare Adam, hanno lasciato il segno nell'addestramento di modelli di deep learning su larga scala. Il punto di forza di tali ottimizzatori è che mostrano una convergenza rapida pur essendo più robusti nella scelta degli iperparametri. Tuttavia, spesso generalizzano peggio rispetto ai metodi non adattivi. Studi recenti hanno collegato questa differenza di prestazioni alla selezione di minimi piatti: i metodi adattivi tendono a trovare soluzioni in bacini più accentuati del paesaggio della funzione di perdita, il che a sua volta danneggia la generalizzazione. Per superare questo problema, proponiamo una nuova versione di Adam arricchita con memoria che promuove l'esplorazione verso minimi più piatti utilizzando un buffer di termini di momento critici durante l'addestramento. Intuitivamente, l'uso del buffer fa sì che l'ottimizzatore superi il bacino di attrazione se questo non è sufficientemente ampio. Dimostriamo empiricamente che il nostro metodo migliora le prestazioni di diverse varianti di Adam su compiti standard di modellazione linguistica supervisionata e classificazione di immagini.

English

Adaptive gradient-based optimizers, particularly Adam, have left their mark in training large-scale deep learning models. The strength of such optimizers is that they exhibit fast convergence while being more robust to hyperparameter choice. However, they often generalize worse than non-adaptive methods. Recent studies have tied this performance gap to flat minima selection: adaptive methods tend to find solutions in sharper basins of the loss landscape, which in turn hurts generalization. To overcome this issue, we propose a new memory-augmented version of Adam that promotes exploration towards flatter minima by using a buffer of critical momentum terms during training. Intuitively, the use of the buffer makes the optimizer overshoot outside the basin of attraction if it is not wide enough. We empirically show that our method improves the performance of several variants of Adam on standard supervised language modelling and image classification tasks.

Promuovere l'Esplorazione in Adam Aumentato con Memoria utilizzando Momenti Critici

Promoting Exploration in Memory-Augmented Adam using Critical Momenta

Abstract

Support