열역학적 자연 경사 하강법
Thermodynamic Natural Gradient Descent
May 22, 2024
저자: Kaelan Donatella, Samuel Duffield, Maxwell Aifer, Denis Melanson, Gavin Crooks, Patrick J. Coles
cs.AI
초록
2차 학습 방법은 경사 하강법보다 더 나은 수렴 특성을 지니지만, 계산상의 오버헤드로 인해 대규모 학습에서는 실제로 거의 사용되지 않습니다. 이는 디지털 컴퓨터에 의해 부과된 하드웨어적 제한으로 볼 수 있습니다. 본 연구에서는 적절한 하드웨어를 사용할 때, 2차 방법인 자연 경사 하강법(NGD)이 1차 방법과 유사한 계산 복잡도를 가질 수 있음을 보여줍니다. 우리는 특정 매개변수 영역에서 NGD와 동등하지만, 비용이 많이 드는 선형 시스템 해결을 피하는 새로운 하이브리드 디지털-아날로그 신경망 학습 알고리즘을 제시합니다. 이 알고리즘은 평형 상태의 아날로그 시스템의 열역학적 특성을 활용하므로, 아날로그 열역학 컴퓨터가 필요합니다. 학습은 하이브리드 디지털-아날로그 루프에서 이루어지며, 아날로그 동역학이 진행되는 동안 주어진 시간 간격으로 경사와 피셔 정보 행렬(또는 다른 양의 준정부호 곡률 행렬)이 계산됩니다. 우리는 이 접근법이 분류 작업과 언어 모델 미세 조정 작업에서 최신 디지털 1차 및 2차 학습 방법을 능가함을 수치적으로 입증합니다.
English
Second-order training methods have better convergence properties than
gradient descent but are rarely used in practice for large-scale training due
to their computational overhead. This can be viewed as a hardware limitation
(imposed by digital computers). Here we show that natural gradient descent
(NGD), a second-order method, can have a similar computational complexity per
iteration to a first-order method, when employing appropriate hardware. We
present a new hybrid digital-analog algorithm for training neural networks that
is equivalent to NGD in a certain parameter regime but avoids prohibitively
costly linear system solves. Our algorithm exploits the thermodynamic
properties of an analog system at equilibrium, and hence requires an analog
thermodynamic computer. The training occurs in a hybrid digital-analog loop,
where the gradient and Fisher information matrix (or any other positive
semi-definite curvature matrix) are calculated at given time intervals while
the analog dynamics take place. We numerically demonstrate the superiority of
this approach over state-of-the-art digital first- and second-order training
methods on classification tasks and language model fine-tuning tasks.