ChatPaper.aiChatPaper

Entrenamiento de LLM reparametrizado mediante transformación de equivalencia ortogonal

Reparameterized LLM Training via Orthogonal Equivalence Transformation

June 9, 2025
Autores: Zeju Qiu, Simon Buchholz, Tim Z. Xiao, Maximilian Dax, Bernhard Schölkopf, Weiyang Liu
cs.AI

Resumen

Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están impulsando el rápido avance de la inteligencia artificial, entrenar de manera efectiva y confiable estos modelos grandes sigue siendo uno de los desafíos más significativos en el campo. Para abordar este desafío, proponemos POET, un novedoso algoritmo de entrenamiento reparametrizado que utiliza Transformación de Equivalencia Ortogonal para optimizar las neuronas. Específicamente, POET reparametriza cada neurona con dos matrices ortogonales aprendibles y una matriz de pesos aleatoria fija. Debido a su capacidad comprobada para preservar las propiedades espectrales de las matrices de pesos, POET puede optimizar de manera estable la función objetivo con una mejora en la generalización. Además, desarrollamos aproximaciones eficientes que hacen que POET sea flexible y escalable para entrenar redes neuronales de gran escala. Experimentos extensivos validan la efectividad y escalabilidad de POET en el entrenamiento de LLMs.
English
While large language models (LLMs) are driving the rapid advancement of artificial intelligence, effectively and reliably training these large models remains one of the field's most significant challenges. To address this challenge, we propose POET, a novel reParameterized training algorithm that uses Orthogonal Equivalence Transformation to optimize neurons. Specifically, POET reparameterizes each neuron with two learnable orthogonal matrices and a fixed random weight matrix. Because of its provable preservation of spectral properties of weight matrices, POET can stably optimize the objective function with improved generalization. We further develop efficient approximations that make POET flexible and scalable for training large-scale neural networks. Extensive experiments validate the effectiveness and scalability of POET in training LLMs.
PDF22June 12, 2025