Надежные правила масштабирования по слоям за счет точной настройки весового затухания
Robust Layerwise Scaling Rules by Proper Weight Decay Tuning
October 17, 2025
Авторы: Zhiyuan Fan, Yifeng Liu, Qingyue Zhao, Angela Yuan, Quanquan Gu
cs.AI
Аннотация
Эмпирические законы масштабирования предписывают, как распределять параметры, данные и вычислительные ресурсы, в то время как параметризация с максимальным обновлением (muP) позволяет переносить скорость обучения между различными ширинами, уравнивая величины обновлений на ранних этапах. Однако в современных масштабно-инвариантных архитектурах обучение быстро переходит в устойчивое состояние, управляемое оптимизатором, где слои нормализации создают чувствительность к масштабу в обратном направлении, и эффективная скорость обучения становится зависимой от ширины, что ухудшает переносимость muP. Мы решаем эту проблему, вводя правило масштабирования весового затухания для AdamW, которое сохраняет усиление подслоев при изменении ширины. Эмпирически спектр сингулярных значений каждого матричного параметра масштабируется по норме как η/λ с приблизительно инвариантной формой; при масштабировании ширины d мы наблюдаем, что наибольшее сингулярное значение масштабируется приблизительно как η/λ⋅d^{0.75}. Сочетание этого наблюдения с правилом скорости обучения muP η_2∝d^{-1} для матричных параметров подразумевает эмпирическое правило масштабирования весового затухания λ_2∝d, которое приблизительно сохраняет усиление подслоев инвариантным к ширине. Вместе с векторными параметрами, обучаемыми при η_1=Θ_d(1) и λ_1=0, это обеспечивает нулевой перенос как скорости обучения, так и весового затухания с прокси на целевые ширины, устраняя необходимость в подборе параметров для каждой ширины. Мы проверяем это правило на трансформерах в стиле LLaMA и в минимальной синтетической настройке, а также предоставляем простой диагностический метод, сопоставляя наибольшие сингулярные значения, для проверки инвариантности усиления подслоев. Наши результаты расширяют muP за пределы режима, близкого к начальной инициализации, явно контролируя масштабы устойчивого состояния, задаваемые оптимизатором, и предлагая практический рецепт для устойчивого к ширине переноса гиперпараметров при использовании AdamW.
English
Empirical scaling laws prescribe how to allocate parameters, data, and
compute, while maximal-update parameterization (muP) enables learning-rate
transfer across widths by equalizing early-time update magnitudes. However, in
modern scale-invariant architectures, training quickly enters an
optimizer-governed steady state where normalization layers create backward
scale sensitivity and the effective learning rate becomes width dependent,
degrading muP transfer. We address this by introducing a weight-decay
scaling rule for AdamW that preserves sublayer gain across widths. Empirically,
the singular-value spectrum of each matrix parameter scales in norm as
eta/lambda with an approximately invariant shape; under width
scaling d, we observe that the top singular value scales approximately as
eta/lambdacdot d^{0.75}. Combining this observation with the muP
learning-rate rule eta_2propto d^{-1} for matrix-like parameters implies an
empirical weight-decay scaling rule lambda_2propto d that
approximately keeps sublayer gains width invariant. Together with vector-like
parameters trained at eta_1=Theta_d(1) and lambda_1=0, this yields
zero-shot transfer of both learning rate and weight decay from proxy to
target widths, removing per-width sweeps. We validate the rule on LLaMA-style
Transformers and in a minimal synthetic setting, and we provide a simple
diagnostic, matching top singular values, to check sublayer-gain invariance.
Our results extend muP beyond the near-init regime by explicitly controlling
steady-state scales set by the optimizer, offering a practical recipe for
width-robust hyperparameter transfer under AdamW.