ChatPaper.aiChatPaper

Discesa del Gradiente Naturale Termodinamica

Thermodynamic Natural Gradient Descent

May 22, 2024
Autori: Kaelan Donatella, Samuel Duffield, Maxwell Aifer, Denis Melanson, Gavin Crooks, Patrick J. Coles
cs.AI

Abstract

I metodi di addestramento del secondo ordine presentano proprietà di convergenza migliori rispetto alla discesa del gradiente, ma sono raramente utilizzati nella pratica per l'addestramento su larga scala a causa del loro sovraccarico computazionale. Questo può essere visto come una limitazione hardware (imposta dai computer digitali). Qui dimostriamo che la discesa del gradiente naturale (NGD), un metodo del secondo ordine, può avere una complessità computazionale per iterazione simile a quella di un metodo del primo ordine, quando si utilizza hardware appropriato. Presentiamo un nuovo algoritmo ibrido digitale-analogico per l'addestramento di reti neurali che è equivalente alla NGD in un determinato regime di parametri, ma evita la risoluzione di sistemi lineari proibitivamente costosi. Il nostro algoritmo sfrutta le proprietà termodinamiche di un sistema analogico in equilibrio, e richiede quindi un computer termodinamico analogico. L'addestramento avviene in un ciclo ibrido digitale-analogico, in cui il gradiente e la matrice di informazione di Fisher (o qualsiasi altra matrice di curvatura semi-definita positiva) vengono calcolati a intervalli di tempo specifici mentre si svolgono le dinamiche analogiche. Dimostriamo numericamente la superiorità di questo approccio rispetto ai metodi di addestramento digitali del primo e del secondo ordine all'avanguardia su compiti di classificazione e di fine-tuning di modelli linguistici.
English
Second-order training methods have better convergence properties than gradient descent but are rarely used in practice for large-scale training due to their computational overhead. This can be viewed as a hardware limitation (imposed by digital computers). Here we show that natural gradient descent (NGD), a second-order method, can have a similar computational complexity per iteration to a first-order method, when employing appropriate hardware. We present a new hybrid digital-analog algorithm for training neural networks that is equivalent to NGD in a certain parameter regime but avoids prohibitively costly linear system solves. Our algorithm exploits the thermodynamic properties of an analog system at equilibrium, and hence requires an analog thermodynamic computer. The training occurs in a hybrid digital-analog loop, where the gradient and Fisher information matrix (or any other positive semi-definite curvature matrix) are calculated at given time intervals while the analog dynamics take place. We numerically demonstrate the superiority of this approach over state-of-the-art digital first- and second-order training methods on classification tasks and language model fine-tuning tasks.
PDF161February 8, 2026