메모리 증강형 Adam에서 임계 운동량을 활용한 탐색 촉진
Promoting Exploration in Memory-Augmented Adam using Critical Momenta
July 18, 2023
저자: Pranshu Malviya, Gonçalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu, Sarath Chandar
cs.AI
초록
대규모 딥러닝 모델 훈련에서 적응형 그래디언트 기반 최적화 도구, 특히 Adam은 그 흔적을 남겼다. 이러한 최적화 도구의 강점은 하이퍼파라미터 선택에 더 강인하면서도 빠른 수렴을 보인다는 점이다. 그러나 이들은 비적응형 방법들보다 일반적으로 더 나쁜 일반화 성능을 보이는 경우가 많다. 최근 연구들은 이러한 성능 격차를 평탄한 최소값 선택과 연관지어 설명한다: 적응형 방법들은 손실 지형의 더 날카로운 골짜기에서 해결책을 찾는 경향이 있으며, 이는 결국 일반화를 저해한다. 이 문제를 극복하기 위해, 우리는 훈련 중에 중요한 모멘텀 항들의 버퍼를 사용하여 더 평탄한 최소값을 향한 탐색을 촉진하는 새로운 메모리 증강 버전의 Adam을 제안한다. 직관적으로, 버퍼의 사용은 최적화 도구가 충분히 넓지 않은 경우, 끌개 골짜기 바깥으로 넘어가도록 만든다. 우리는 실험적으로 우리의 방법이 표준 지도 학습 언어 모델링 및 이미지 분류 작업에서 여러 Adam 변형들의 성능을 향상시킨다는 것을 보여준다.
English
Adaptive gradient-based optimizers, particularly Adam, have left their mark
in training large-scale deep learning models. The strength of such optimizers
is that they exhibit fast convergence while being more robust to hyperparameter
choice. However, they often generalize worse than non-adaptive methods. Recent
studies have tied this performance gap to flat minima selection: adaptive
methods tend to find solutions in sharper basins of the loss landscape, which
in turn hurts generalization. To overcome this issue, we propose a new
memory-augmented version of Adam that promotes exploration towards flatter
minima by using a buffer of critical momentum terms during training.
Intuitively, the use of the buffer makes the optimizer overshoot outside the
basin of attraction if it is not wide enough. We empirically show that our
method improves the performance of several variants of Adam on standard
supervised language modelling and image classification tasks.