Надежные правила масштабирования по слоям за счет точной настройки весового затухания

Аннотация

Эмпирические законы масштабирования предписывают, как распределять параметры, данные и вычислительные ресурсы, в то время как параметризация с максимальным обновлением (muP) позволяет переносить скорость обучения между различными ширинами, уравнивая величины обновлений на ранних этапах. Однако в современных масштабно-инвариантных архитектурах обучение быстро переходит в устойчивое состояние, управляемое оптимизатором, где слои нормализации создают чувствительность к масштабу в обратном направлении, и эффективная скорость обучения становится зависимой от ширины, что ухудшает переносимость muP. Мы решаем эту проблему, вводя правило масштабирования весового затухания для AdamW, которое сохраняет усиление подслоев при изменении ширины. Эмпирически спектр сингулярных значений каждого матричного параметра масштабируется по норме как η/λ с приблизительно инвариантной формой; при масштабировании ширины d мы наблюдаем, что наибольшее сингулярное значение масштабируется приблизительно как η/λ⋅d^{0.75}. Сочетание этого наблюдения с правилом скорости обучения muP η_2∝d^{-1} для матричных параметров подразумевает эмпирическое правило масштабирования весового затухания λ_2∝d, которое приблизительно сохраняет усиление подслоев инвариантным к ширине. Вместе с векторными параметрами, обучаемыми при η_1=Θ_d(1) и λ_1=0, это обеспечивает нулевой перенос как скорости обучения, так и весового затухания с прокси на целевые ширины, устраняя необходимость в подборе параметров для каждой ширины. Мы проверяем это правило на трансформерах в стиле LLaMA и в минимальной синтетической настройке, а также предоставляем простой диагностический метод, сопоставляя наибольшие сингулярные значения, для проверки инвариантности усиления подслоев. Наши результаты расширяют muP за пределы режима, близкого к начальной инициализации, явно контролируя масштабы устойчивого состояния, задаваемые оптимизатором, и предлагая практический рецепт для устойчивого к ширине переноса гиперпараметров при использовании AdamW.

English

Empirical scaling laws prescribe how to allocate parameters, data, and compute, while maximal-update parameterization (muP) enables learning-rate transfer across widths by equalizing early-time update magnitudes. However, in modern scale-invariant architectures, training quickly enters an optimizer-governed steady state where normalization layers create backward scale sensitivity and the effective learning rate becomes width dependent, degrading muP transfer. We address this by introducing a weight-decay scaling rule for AdamW that preserves sublayer gain across widths. Empirically, the singular-value spectrum of each matrix parameter scales in norm as eta/lambda with an approximately invariant shape; under width scaling d, we observe that the top singular value scales approximately as eta/lambdacdot d^{0.75}. Combining this observation with the muP learning-rate rule eta_2propto d^{-1} for matrix-like parameters implies an empirical weight-decay scaling rule lambda_2propto d that approximately keeps sublayer gains width invariant. Together with vector-like parameters trained at eta_1=Theta_d(1) and lambda_1=0, this yields zero-shot transfer of both learning rate and weight decay from proxy to target widths, removing per-width sweeps. We validate the rule on LLaMA-style Transformers and in a minimal synthetic setting, and we provide a simple diagnostic, matching top singular values, to check sublayer-gain invariance. Our results extend muP beyond the near-init regime by explicitly controlling steady-state scales set by the optimizer, offering a practical recipe for width-robust hyperparameter transfer under AdamW.

Надежные правила масштабирования по слоям за счет точной настройки весового затухания

Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

Аннотация

Support