Herparameterisatie van LLM-training via orthogonale equivalentietransformatie
Reparameterized LLM Training via Orthogonal Equivalence Transformation
June 9, 2025
Auteurs: Zeju Qiu, Simon Buchholz, Tim Z. Xiao, Maximilian Dax, Bernhard Schölkopf, Weiyang Liu
cs.AI
Samenvatting
Hoewel grote taalmmodellen (LLMs) de snelle vooruitgang van kunstmatige intelligentie aandrijven, blijft het effectief en betrouwbaar trainen van deze grote modellen een van de belangrijkste uitdagingen in het vakgebied. Om deze uitdaging aan te pakken, stellen we POET voor, een nieuw reParameterized trainingsalgoritme dat Orthogonale Equivalentie Transformatie gebruikt om neuronen te optimaliseren. Specifiek herparameteriseert POET elk neuron met twee leerbare orthogonale matrices en een vaste willekeurige gewichtsmatrix. Vanwege het bewezen behoud van spectrale eigenschappen van gewichtsmatrices, kan POET de doelfunctie stabiel optimaliseren met verbeterde generalisatie. We ontwikkelen verder efficiënte benaderingen die POET flexibel en schaalbaar maken voor het trainen van grootschalige neurale netwerken. Uitgebreide experimenten valideren de effectiviteit en schaalbaarheid van POET bij het trainen van LLMs.
English
While large language models (LLMs) are driving the rapid advancement of
artificial intelligence, effectively and reliably training these large models
remains one of the field's most significant challenges. To address this
challenge, we propose POET, a novel reParameterized training algorithm that
uses Orthogonal Equivalence Transformation to optimize neurons. Specifically,
POET reparameterizes each neuron with two learnable orthogonal matrices and a
fixed random weight matrix. Because of its provable preservation of spectral
properties of weight matrices, POET can stably optimize the objective function
with improved generalization. We further develop efficient approximations that
make POET flexible and scalable for training large-scale neural networks.
Extensive experiments validate the effectiveness and scalability of POET in
training LLMs.