ChatPaper.aiChatPaper

学習可能な乗数:言語モデル行列層のスケール解放

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

January 8, 2026
著者: Maksim Velikanov, Ilyas Chahed, Jingwei Zuo, Dhia Eddine Rhaiem, Younes Belkada, Hakim Hacid
cs.AI

要旨

重み減衰(WD)を行列層に適用することは、大規模言語モデルの事前学習における標準的な手法です。先行研究では、確率的勾配ノイズが重み行列Wにブラウン運動的な拡張を引き起こし、その成長がWDによって相殺されることで、特定の重みノルム||W||を持つWD-ノイズ平衡状態が生じることが示唆されています。本研究では、この平衡状態のノルムを訓練手順の有害なアーティファクトと見なし、学習可能な乗数(multiplier)を導入して最適なスケールを学習させることでこの問題に対処します。まず、Wに学習可能なスカラー乗数を付加し、WD-ノイズ平衡状態のノルムが最適ではないことを確認します。学習されたスケールはデータに適応し、性能を向上させます。次に、個々の行と列のノルムも同様に制約されていると論じ、学習可能な行単位・列単位の乗数を導入することでそのスケールを解放します。提案手法は、学習可能でより表現力の高いmuP乗数の一般化と見なすことができます。本手法は、十分に調整されたmuPベースラインを上回り、乗数調整の計算オーバーヘッドを削減し、順伝搬における対称性や学習された乗数の幅スケーリングといった実用的な問題を浮き彫りにします。最後に、AdamオプティマイザとMuonオプティマイザの両方で学習可能乗数を検証し、AdamからMuonへの切り替えに匹敵する下流評価での改善を示します。
English
Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.
PDF281January 10, 2026