ChatPaper.aiChatPaper

Thermodynamisch Natuurlijk Gradiënt Afdalen

Thermodynamic Natural Gradient Descent

May 22, 2024
Auteurs: Kaelan Donatella, Samuel Duffield, Maxwell Aifer, Denis Melanson, Gavin Crooks, Patrick J. Coles
cs.AI

Samenvatting

Tweedere-orde trainingsmethoden hebben betere convergentie-eigenschappen dan gradient descent, maar worden in de praktijk zelden gebruikt voor grootschalige training vanwege hun rekenkundige overhead. Dit kan worden gezien als een hardwarebeperking (opgelegd door digitale computers). Hier tonen we aan dat natural gradient descent (NGD), een tweedere-orde methode, een vergelijkbare rekenkundige complexiteit per iteratie kan hebben als een eerstere-orde methode, wanneer geschikte hardware wordt gebruikt. We presenteren een nieuw hybride digitaal-analoog algoritme voor het trainen van neurale netwerken dat equivalent is aan NGD in een bepaald parameterregime, maar dure lineaire systeemoplossingen vermijdt. Ons algoritme maakt gebruik van de thermodynamische eigenschappen van een analoog systeem in evenwicht, en vereist daarom een analoge thermodynamische computer. De training vindt plaats in een hybride digitaal-analoog lus, waarbij de gradient en de Fisher-informatiematrix (of een andere positief semidefiniete krommingsmatrix) op bepaalde tijdsintervallen worden berekend terwijl de analoge dynamiek plaatsvindt. We demonstreren numeriek de superioriteit van deze aanpak ten opzichte van state-of-the-art digitale eerstere- en tweedere-orde trainingsmethoden voor classificatietaken en fine-tuningtaken van taalmodelen.
English
Second-order training methods have better convergence properties than gradient descent but are rarely used in practice for large-scale training due to their computational overhead. This can be viewed as a hardware limitation (imposed by digital computers). Here we show that natural gradient descent (NGD), a second-order method, can have a similar computational complexity per iteration to a first-order method, when employing appropriate hardware. We present a new hybrid digital-analog algorithm for training neural networks that is equivalent to NGD in a certain parameter regime but avoids prohibitively costly linear system solves. Our algorithm exploits the thermodynamic properties of an analog system at equilibrium, and hence requires an analog thermodynamic computer. The training occurs in a hybrid digital-analog loop, where the gradient and Fisher information matrix (or any other positive semi-definite curvature matrix) are calculated at given time intervals while the analog dynamics take place. We numerically demonstrate the superiority of this approach over state-of-the-art digital first- and second-order training methods on classification tasks and language model fine-tuning tasks.
PDF161February 8, 2026