Multiplicateurs Apprenants : Libérer l'Échelle des Couches Matricielles des Modèles de Langage
Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers
January 8, 2026
papers.authors: Maksim Velikanov, Ilyas Chahed, Jingwei Zuo, Dhia Eddine Rhaiem, Younes Belkada, Hakim Hacid
cs.AI
papers.abstract
L'application du décroissance des poids (WD) aux couches matricielles est une pratique standard lors du pré-entraînement des grands modèles de langage. Des travaux antérieurs suggèrent que le bruit du gradient stochastique induit une expansion de type brownien des matrices de poids W, dont la croissance est contrecarrée par le WD, conduisant à un équilibre WD-bruit avec une certaine norme de poids ||W||. Dans ce travail, nous considérons la norme d'équilibre comme un artefact nuisible de la procédure d'entraînement, et nous y remédions en introduisant des multiplicateurs apprenables pour apprendre l'échelle optimale. Premièrement, nous attachons un multiplicateur scalaire apprenable à W et confirmons que la norme d'équilibre WD-bruit est sous-optimale : l'échelle apprise s'adapte aux données et améliore les performances. Nous soutenons ensuite que les normes individuelles des lignes et des colonnes sont contraintes de manière similaire, et libérons leur échelle en introduisant des multiplicateurs apprenables par ligne et par colonne. Notre méthode peut être vue comme une généralisation apprenable et plus expressive des multiplicateurs muP. Elle surpasse une baseline muP bien réglée, réduit la surcharge computationnelle du réglage des multiplicateurs et soulève des questions pratiques telles que les symétries de la passe avant et la mise à l'échelle en largeur des multiplicateurs appris. Enfin, nous validons les multiplicateurs apprenables avec les optimiseurs Adam et Muon, où une amélioration est observée dans les évaluations en aval, équivalente à celle obtenue en passant d'Adam à Muon.
English
Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.