Entraînement de LLM reparamétré via une transformation d'équivalence orthogonale
Reparameterized LLM Training via Orthogonal Equivalence Transformation
June 9, 2025
papers.authors: Zeju Qiu, Simon Buchholz, Tim Z. Xiao, Maximilian Dax, Bernhard Schölkopf, Weiyang Liu
cs.AI
papers.abstract
Alors que les grands modèles de langage (LLMs) propulsent l'avancée rapide de l'intelligence artificielle, l'entraînement efficace et fiable de ces modèles de grande taille reste l'un des défis les plus importants du domaine. Pour relever ce défi, nous proposons POET, un nouvel algorithme d'entraînement reparamétré qui utilise une Transformation Orthogonale d'Équivalence pour optimiser les neurones. Plus précisément, POET reparamètre chaque neurone avec deux matrices orthogonales apprenables et une matrice de poids aléatoire fixe. Grâce à sa capacité prouvée à préserver les propriétés spectrales des matrices de poids, POET peut optimiser de manière stable la fonction objectif avec une généralisation améliorée. Nous développons en outre des approximations efficaces qui rendent POET flexible et évolutif pour l'entraînement de réseaux neuronaux à grande échelle. Des expériences approfondies valident l'efficacité et l'évolutivité de POET dans l'entraînement des LLMs.
English
While large language models (LLMs) are driving the rapid advancement of
artificial intelligence, effectively and reliably training these large models
remains one of the field's most significant challenges. To address this
challenge, we propose POET, a novel reParameterized training algorithm that
uses Orthogonal Equivalence Transformation to optimize neurons. Specifically,
POET reparameterizes each neuron with two learnable orthogonal matrices and a
fixed random weight matrix. Because of its provable preservation of spectral
properties of weight matrices, POET can stably optimize the objective function
with improved generalization. We further develop efficient approximations that
make POET flexible and scalable for training large-scale neural networks.
Extensive experiments validate the effectiveness and scalability of POET in
training LLMs.