Descenso de Gradiente Natural Termodinámico

Resumen

Los métodos de entrenamiento de segundo orden tienen mejores propiedades de convergencia que el descenso de gradiente, pero rara vez se utilizan en la práctica para entrenamiento a gran escala debido a su sobrecarga computacional. Esto puede verse como una limitación de hardware (impuesta por las computadoras digitales). Aquí demostramos que el descenso de gradiente natural (NGD, por sus siglas en inglés), un método de segundo orden, puede tener una complejidad computacional por iteración similar a la de un método de primer orden cuando se emplea el hardware adecuado. Presentamos un nuevo algoritmo híbrido digital-analógico para entrenar redes neuronales que es equivalente al NGD en un régimen de parámetros específico, pero evita la resolución de sistemas lineales prohibitivamente costosa. Nuestro algoritmo aprovecha las propiedades termodinámicas de un sistema analógico en equilibrio y, por lo tanto, requiere una computadora termodinámica analógica. El entrenamiento ocurre en un bucle híbrido digital-analógico, donde el gradiente y la matriz de información de Fisher (o cualquier otra matriz de curvatura semidefinida positiva) se calculan en intervalos de tiempo determinados mientras tienen lugar las dinámicas analógicas. Demostramos numéricamente la superioridad de este enfoque sobre los métodos de entrenamiento digital de primer y segundo orden más avanzados en tareas de clasificación y ajuste fino de modelos de lenguaje.

English

Second-order training methods have better convergence properties than gradient descent but are rarely used in practice for large-scale training due to their computational overhead. This can be viewed as a hardware limitation (imposed by digital computers). Here we show that natural gradient descent (NGD), a second-order method, can have a similar computational complexity per iteration to a first-order method, when employing appropriate hardware. We present a new hybrid digital-analog algorithm for training neural networks that is equivalent to NGD in a certain parameter regime but avoids prohibitively costly linear system solves. Our algorithm exploits the thermodynamic properties of an analog system at equilibrium, and hence requires an analog thermodynamic computer. The training occurs in a hybrid digital-analog loop, where the gradient and Fisher information matrix (or any other positive semi-definite curvature matrix) are calculated at given time intervals while the analog dynamics take place. We numerically demonstrate the superiority of this approach over state-of-the-art digital first- and second-order training methods on classification tasks and language model fine-tuning tasks.

Descenso de Gradiente Natural Termodinámico

Thermodynamic Natural Gradient Descent

Resumen

Support