クリティカルモーメンタを用いたメモリ拡張型Adamにおける探索促進
Promoting Exploration in Memory-Augmented Adam using Critical Momenta
July 18, 2023
著者: Pranshu Malviya, Gonçalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu, Sarath Chandar
cs.AI
要旨
適応型勾配ベースの最適化手法、特にAdamは、大規模な深層学習モデルの訓練においてその存在感を示してきた。このような最適化手法の強みは、ハイパーパラメータの選択に対してより頑健でありながら、高速な収束を示す点にある。しかし、これらの手法は非適応型の手法に比べて一般化性能が劣る傾向がある。最近の研究では、この性能差は平坦な最小値の選択に関連していることが示されている:適応型手法は損失関数のランドスケープにおいてより鋭い盆地に解を見つける傾向があり、それが一般化性能を損なう原因となっている。この問題を克服するため、我々は訓練中に重要な運動量項をバッファとして使用することで、より平坦な最小値への探索を促進する新しいメモリ拡張版Adamを提案する。直感的には、バッファの使用により、最適化手法は吸引盆地が十分に広くない場合にその外側にオーバーシュートするようになる。我々は、標準的な教師あり言語モデリングおよび画像分類タスクにおいて、本手法がAdamのいくつかのバリエーションの性能を向上させることを実験的に示す。
English
Adaptive gradient-based optimizers, particularly Adam, have left their mark
in training large-scale deep learning models. The strength of such optimizers
is that they exhibit fast convergence while being more robust to hyperparameter
choice. However, they often generalize worse than non-adaptive methods. Recent
studies have tied this performance gap to flat minima selection: adaptive
methods tend to find solutions in sharper basins of the loss landscape, which
in turn hurts generalization. To overcome this issue, we propose a new
memory-augmented version of Adam that promotes exploration towards flatter
minima by using a buffer of critical momentum terms during training.
Intuitively, the use of the buffer makes the optimizer overshoot outside the
basin of attraction if it is not wide enough. We empirically show that our
method improves the performance of several variants of Adam on standard
supervised language modelling and image classification tasks.