適切な重み減衰調整による堅牢な層ごとのスケーリング規則
Robust Layerwise Scaling Rules by Proper Weight Decay Tuning
October 17, 2025
著者: Zhiyuan Fan, Yifeng Liu, Qingyue Zhao, Angela Yuan, Quanquan Gu
cs.AI
要旨
経験的なスケーリング則は、パラメータ、データ、計算リソースの割り当て方を規定し、最大更新パラメータ化(muP)は、幅を跨いだ学習率の転移を初期更新の大きさを均一化することで可能にする。しかし、現代のスケール不変アーキテクチャでは、訓練は迅速にオプティマイザーが支配する定常状態に入り、正規化層が後方スケール感度を生み出し、実効学習率が幅に依存するようになり、muPの転移が劣化する。これを解決するために、AdamWにおける重み減衰のスケーリング則を導入し、幅を跨いだサブレイヤーゲインを保持する。経験的に、各行列パラメータの特異値スペクトルはノルムとしてeta/lambdaに比例し、形状はほぼ不変である。幅スケーリングdの下で、最上位の特異値はほぼeta/lambda * d^{0.75}に比例することを観察する。この観察を、行列類似パラメータに対するmuP学習率則eta_2 ∝ d^{-1}と組み合わせることで、経験的な重み減衰スケーリング則lambda_2 ∝ dが導かれ、サブレイヤーゲインを幅不変に保つ。これに加えて、eta_1 = Theta_d(1)およびlambda_1 = 0で訓練されるベクトル類似パラメータを組み合わせることで、学習率と重み減衰の両方をプロキシ幅からターゲット幅へゼロショット転移させ、幅ごとの探索を不要にする。この則をLLaMAスタイルのTransformerおよび最小限の合成設定で検証し、サブレイヤーゲイン不変性を確認するための簡単な診断法(最上位特異値の一致)を提供する。我々の結果は、muPを初期近傍領域を超えて拡張し、オプティマイザーによって設定される定常状態のスケールを明示的に制御することで、AdamW下での幅ロバストなハイパーパラメータ転移の実用的なレシピを提供する。
English
Empirical scaling laws prescribe how to allocate parameters, data, and
compute, while maximal-update parameterization (muP) enables learning-rate
transfer across widths by equalizing early-time update magnitudes. However, in
modern scale-invariant architectures, training quickly enters an
optimizer-governed steady state where normalization layers create backward
scale sensitivity and the effective learning rate becomes width dependent,
degrading muP transfer. We address this by introducing a weight-decay
scaling rule for AdamW that preserves sublayer gain across widths. Empirically,
the singular-value spectrum of each matrix parameter scales in norm as
eta/lambda with an approximately invariant shape; under width
scaling d, we observe that the top singular value scales approximately as
eta/lambdacdot d^{0.75}. Combining this observation with the muP
learning-rate rule eta_2propto d^{-1} for matrix-like parameters implies an
empirical weight-decay scaling rule lambda_2propto d that
approximately keeps sublayer gains width invariant. Together with vector-like
parameters trained at eta_1=Theta_d(1) and lambda_1=0, this yields
zero-shot transfer of both learning rate and weight decay from proxy to
target widths, removing per-width sweeps. We validate the rule on LLaMA-style
Transformers and in a minimal synthetic setting, and we provide a simple
diagnostic, matching top singular values, to check sublayer-gain invariance.
Our results extend muP beyond the near-init regime by explicitly controlling
steady-state scales set by the optimizer, offering a practical recipe for
width-robust hyperparameter transfer under AdamW.