ChatPaper.aiChatPaper

Стимулирование исследования в памяти с использованием критических моментов в адаптивном методе Adam

Promoting Exploration in Memory-Augmented Adam using Critical Momenta

July 18, 2023
Авторы: Pranshu Malviya, Gonçalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu, Sarath Chandar
cs.AI

Аннотация

Адаптивные оптимизаторы на основе градиентов, в частности Adam, оставили свой след в обучении крупномасштабных моделей глубокого обучения. Сила таких оптимизаторов заключается в их способности быстро сходиться, оставаясь при этом более устойчивыми к выбору гиперпараметров. Однако они часто демонстрируют худшую обобщающую способность по сравнению с неадаптивными методами. Недавние исследования связывают этот разрыв в производительности с выбором плоских минимумов: адаптивные методы склонны находить решения в более острых бассейнах ландшафта потерь, что, в свою очередь, ухудшает обобщение. Чтобы преодолеть эту проблему, мы предлагаем новую версию Adam с расширенной памятью, которая способствует исследованию в направлении более плоских минимумов за счет использования буфера критических моментов в процессе обучения. Интуитивно использование буфера заставляет оптимизатор выходить за пределы бассейна притяжения, если он недостаточно широк. Мы эмпирически показываем, что наш метод улучшает производительность нескольких вариантов Adam на стандартных задачах обучения с учителем в области языкового моделирования и классификации изображений.
English
Adaptive gradient-based optimizers, particularly Adam, have left their mark in training large-scale deep learning models. The strength of such optimizers is that they exhibit fast convergence while being more robust to hyperparameter choice. However, they often generalize worse than non-adaptive methods. Recent studies have tied this performance gap to flat minima selection: adaptive methods tend to find solutions in sharper basins of the loss landscape, which in turn hurts generalization. To overcome this issue, we propose a new memory-augmented version of Adam that promotes exploration towards flatter minima by using a buffer of critical momentum terms during training. Intuitively, the use of the buffer makes the optimizer overshoot outside the basin of attraction if it is not wide enough. We empirically show that our method improves the performance of several variants of Adam on standard supervised language modelling and image classification tasks.
PDF20December 15, 2024