ChatPaper.aiChatPaper

Lernbare Multiplikatoren: Befreiung der Skalierung von Matrixschichten in Sprachmodellen

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

January 8, 2026
papers.authors: Maksim Velikanov, Ilyas Chahed, Jingwei Zuo, Dhia Eddine Rhaiem, Younes Belkada, Hakim Hacid
cs.AI

papers.abstract

Die Anwendung von Gewichtsverfalls (Weight Decay, WD) auf Matrixschichten ist Standard in der Vortrainierung großer Sprachmodelle. Frühere Arbeiten legen nahe, dass stochastisches Gradientenrauschen eine brownianische Expansion der Gewichtsmatrizen W induziert, deren Wachstum durch WD ausgeglichen wird, was zu einem WD-Rauschen-Gleichgewicht mit einer bestimmten Gewichtsnorm ||W|| führt. In dieser Arbeit betrachten wir die Gleichgewichtsnorm als schädliches Artefakt des Trainingsverfahrens und adressieren dies durch die Einführung lernbarer Multiplikatoren, um die optimale Skalierung zu erlernen. Zuerst fügen wir W einen lernbaren skalaren Multiplikator hinzu und bestätigen, dass die WD-Rauschen-Gleichgewichtsnorm suboptimal ist: Die erlernte Skalierung passt sich an die Daten an und verbessert die Leistung. Wir argumentieren anschließend, dass individuelle Zeilen- und Spaltennormen ähnlich eingeschränkt sind, und befreien deren Skalierung durch die Einführung lernbarer zeilen- und spaltenweiser Multiplikatoren. Unsere Methode kann als eine lernbare, ausdrucksstärkere Verallgemeinerung von muP-Multiplikatoren betrachtet werden. Sie übertrifft eine gut abgestimmte muP-Baseline, reduziert den Rechenaufwand für die Multiplikatorabstimmung und wirft praktische Fragen auf, wie z.B. Vorwärtspass-Symmetrien und die Breitenskalerung der gelernten Multiplikatoren. Abschließend validieren wir lernbare Multiplikatoren mit sowohl Adam- als auch Muon-Optimierern, wobei sie eine Verbesserung in nachgelagerten Evaluierungen zeigen, die der Verbesserung durch den Wechsel von Adam zu Muon entspricht.
English
Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.
PDF281January 10, 2026