Entraînement de LLM reparamétré via une transformation d'équivalence orthogonale

papers.abstract

Alors que les grands modèles de langage (LLMs) propulsent l'avancée rapide de l'intelligence artificielle, l'entraînement efficace et fiable de ces modèles de grande taille reste l'un des défis les plus importants du domaine. Pour relever ce défi, nous proposons POET, un nouvel algorithme d'entraînement reparamétré qui utilise une Transformation Orthogonale d'Équivalence pour optimiser les neurones. Plus précisément, POET reparamètre chaque neurone avec deux matrices orthogonales apprenables et une matrice de poids aléatoire fixe. Grâce à sa capacité prouvée à préserver les propriétés spectrales des matrices de poids, POET peut optimiser de manière stable la fonction objectif avec une généralisation améliorée. Nous développons en outre des approximations efficaces qui rendent POET flexible et évolutif pour l'entraînement de réseaux neuronaux à grande échelle. Des expériences approfondies valident l'efficacité et l'évolutivité de POET dans l'entraînement des LLMs.

English

While large language models (LLMs) are driving the rapid advancement of artificial intelligence, effectively and reliably training these large models remains one of the field's most significant challenges. To address this challenge, we propose POET, a novel reParameterized training algorithm that uses Orthogonal Equivalence Transformation to optimize neurons. Specifically, POET reparameterizes each neuron with two learnable orthogonal matrices and a fixed random weight matrix. Because of its provable preservation of spectral properties of weight matrices, POET can stably optimize the objective function with improved generalization. We further develop efficient approximations that make POET flexible and scalable for training large-scale neural networks. Extensive experiments validate the effectiveness and scalability of POET in training LLMs.

Entraînement de LLM reparamétré via une transformation d'équivalence orthogonale

Reparameterized LLM Training via Orthogonal Equivalence Transformation

papers.abstract

Support