Descenso de Gradiente Natural Termodinámico
Thermodynamic Natural Gradient Descent
May 22, 2024
Autores: Kaelan Donatella, Samuel Duffield, Maxwell Aifer, Denis Melanson, Gavin Crooks, Patrick J. Coles
cs.AI
Resumen
Los métodos de entrenamiento de segundo orden tienen mejores propiedades de convergencia que el descenso de gradiente, pero rara vez se utilizan en la práctica para entrenamiento a gran escala debido a su sobrecarga computacional. Esto puede verse como una limitación de hardware (impuesta por las computadoras digitales). Aquí demostramos que el descenso de gradiente natural (NGD, por sus siglas en inglés), un método de segundo orden, puede tener una complejidad computacional por iteración similar a la de un método de primer orden cuando se emplea el hardware adecuado. Presentamos un nuevo algoritmo híbrido digital-analógico para entrenar redes neuronales que es equivalente al NGD en un régimen de parámetros específico, pero evita la resolución de sistemas lineales prohibitivamente costosa. Nuestro algoritmo aprovecha las propiedades termodinámicas de un sistema analógico en equilibrio y, por lo tanto, requiere una computadora termodinámica analógica. El entrenamiento ocurre en un bucle híbrido digital-analógico, donde el gradiente y la matriz de información de Fisher (o cualquier otra matriz de curvatura semidefinida positiva) se calculan en intervalos de tiempo determinados mientras tienen lugar las dinámicas analógicas. Demostramos numéricamente la superioridad de este enfoque sobre los métodos de entrenamiento digital de primer y segundo orden más avanzados en tareas de clasificación y ajuste fino de modelos de lenguaje.
English
Second-order training methods have better convergence properties than
gradient descent but are rarely used in practice for large-scale training due
to their computational overhead. This can be viewed as a hardware limitation
(imposed by digital computers). Here we show that natural gradient descent
(NGD), a second-order method, can have a similar computational complexity per
iteration to a first-order method, when employing appropriate hardware. We
present a new hybrid digital-analog algorithm for training neural networks that
is equivalent to NGD in a certain parameter regime but avoids prohibitively
costly linear system solves. Our algorithm exploits the thermodynamic
properties of an analog system at equilibrium, and hence requires an analog
thermodynamic computer. The training occurs in a hybrid digital-analog loop,
where the gradient and Fisher information matrix (or any other positive
semi-definite curvature matrix) are calculated at given time intervals while
the analog dynamics take place. We numerically demonstrate the superiority of
this approach over state-of-the-art digital first- and second-order training
methods on classification tasks and language model fine-tuning tasks.Summary
AI-Generated Summary