Robuste schichtweise Skalierungsregeln durch geeignete Einstellung der Gewichtsabnahme
Robust Layerwise Scaling Rules by Proper Weight Decay Tuning
October 17, 2025
papers.authors: Zhiyuan Fan, Yifeng Liu, Qingyue Zhao, Angela Yuan, Quanquan Gu
cs.AI
papers.abstract
Empirische Skalierungsgesetze legen fest, wie Parameter, Daten und Rechenleistung zugeordnet werden sollen, während die Maximal-Update-Parametrisierung (muP) die Lernratenübertragung über verschiedene Breiten ermöglicht, indem die Update-Größen in der Anfangsphase angeglichen werden. In modernen skalierungsinvarianten Architekturen tritt das Training jedoch schnell in einen durch den Optimierer gesteuerten stationären Zustand ein, in dem Normalisierungsschichten eine Rückwärts-Skalierungsempfindlichkeit erzeugen und die effektive Lernrate breitenabhängig wird, was die muP-Übertragung beeinträchtigt. Wir adressieren dies durch die Einführung einer Gewichtsabfall-Skalierungsregel für AdamW, die die Sublayer-Verstärkung über verschiedene Breiten hinweg erhält. Empirisch skaliert das Spektrum der Singulärwerte jedes Matrixparameters in der Norm als eta/lambda mit einer annähernd invarianten Form; unter Breitenskalierung d beobachten wir, dass der größte Singulärwert annähernd als eta/lambda * d^{0,75} skaliert. Die Kombination dieser Beobachtung mit der muP-Lernratenregel eta_2 ∝ d^{-1} für matrixähnliche Parameter impliziert eine empirische Gewichtsabfall-Skalierungsregel lambda_2 ∝ d, die die Sublayer-Verstärkungen annähernd breiteninvariant hält. Zusammen mit vektorähnlichen Parametern, die bei eta_1 = Theta_d(1) und lambda_1 = 0 trainiert werden, ermöglicht dies eine Null-Shot-Übertragung sowohl der Lernrate als auch des Gewichtsabfalls von Proxy- auf Zielbreiten, wodurch Breiten-spezifische Sweeps entfallen. Wir validieren die Regel an LLaMA-artigen Transformern und in einem minimalen synthetischen Setting und stellen eine einfache Diagnostik, die die größten Singulärwerte abgleicht, zur Überprüfung der Sublayer-Verstärkungsinvarianz bereit. Unsere Ergebnisse erweitern muP über das Anfangsregime hinaus, indem sie explizit die durch den Optimierer gesetzten stationären Zustandsskalen kontrollieren, und bieten ein praktisches Rezept für breitenrobuste Hyperparameterübertragung unter AdamW.
English
Empirical scaling laws prescribe how to allocate parameters, data, and
compute, while maximal-update parameterization (muP) enables learning-rate
transfer across widths by equalizing early-time update magnitudes. However, in
modern scale-invariant architectures, training quickly enters an
optimizer-governed steady state where normalization layers create backward
scale sensitivity and the effective learning rate becomes width dependent,
degrading muP transfer. We address this by introducing a weight-decay
scaling rule for AdamW that preserves sublayer gain across widths. Empirically,
the singular-value spectrum of each matrix parameter scales in norm as
eta/lambda with an approximately invariant shape; under width
scaling d, we observe that the top singular value scales approximately as
eta/lambdacdot d^{0.75}. Combining this observation with the muP
learning-rate rule eta_2propto d^{-1} for matrix-like parameters implies an
empirical weight-decay scaling rule lambda_2propto d that
approximately keeps sublayer gains width invariant. Together with vector-like
parameters trained at eta_1=Theta_d(1) and lambda_1=0, this yields
zero-shot transfer of both learning rate and weight decay from proxy to
target widths, removing per-width sweeps. We validate the rule on LLaMA-style
Transformers and in a minimal synthetic setting, and we provide a simple
diagnostic, matching top singular values, to check sublayer-gain invariance.
Our results extend muP beyond the near-init regime by explicitly controlling
steady-state scales set by the optimizer, offering a practical recipe for
width-robust hyperparameter transfer under AdamW.