Regole di Scalatura Robuste per Livelli tramite Ottimizzazione del Decadimento dei Pesi

Abstract

Le leggi di scaling empiriche prescrivono come allocare parametri, dati e risorse computazionali, mentre la parametrizzazione a massimo aggiornamento (muP) consente il trasferimento del tasso di apprendimento tra diverse larghezze bilanciando le magnitudini degli aggiornamenti nelle fasi iniziali. Tuttavia, nelle moderne architetture invarianti alla scala, l'allenamento entra rapidamente in uno stato stazionario governato dall'ottimizzatore, dove i livelli di normalizzazione creano una sensibilità alla scala nel backward e il tasso di apprendimento effettivo diventa dipendente dalla larghezza, degradando il trasferimento muP. Affrontiamo questo problema introducendo una regola di scaling del decadimento del peso per AdamW che preserva il guadagno dei sottolivelli tra diverse larghezze. Empiricamente, lo spettro dei valori singolari di ciascun parametro matriciale scala in norma come eta/lambda con una forma approssimativamente invariante; sotto scaling di larghezza d, osserviamo che il valore singolare più alto scala approssimativamente come eta/lambda * d^{0.75}. Combinando questa osservazione con la regola muP del tasso di apprendimento eta_2 ∝ d^{-1} per parametri di tipo matrice implica una regola empirica di scaling del decadimento del peso lambda_2 ∝ d che mantiene approssimativamente invarianti i guadagni dei sottolivelli rispetto alla larghezza. Insieme a parametri di tipo vettore allenati a eta_1 = Theta_d(1) e lambda_1 = 0, ciò permette il trasferimento zero-shot sia del tasso di apprendimento che del decadimento del peso dalle larghezze proxy a quelle target, eliminando la necessità di sweep per ogni larghezza. Validiamo la regola su Transformer in stile LLaMA e in un contesto sintetico minimale, e forniamo una semplice diagnostica, confrontando i valori singolari più alti, per verificare l'invarianza del guadagno dei sottolivelli. I nostri risultati estendono muP oltre il regime vicino all'inizializzazione controllando esplicitamente le scale dello stato stazionario impostate dall'ottimizzatore, offrendo una ricetta pratica per il trasferimento robusto agli iperparametri rispetto alla larghezza sotto AdamW.

English

Empirical scaling laws prescribe how to allocate parameters, data, and compute, while maximal-update parameterization (muP) enables learning-rate transfer across widths by equalizing early-time update magnitudes. However, in modern scale-invariant architectures, training quickly enters an optimizer-governed steady state where normalization layers create backward scale sensitivity and the effective learning rate becomes width dependent, degrading muP transfer. We address this by introducing a weight-decay scaling rule for AdamW that preserves sublayer gain across widths. Empirically, the singular-value spectrum of each matrix parameter scales in norm as eta/lambda with an approximately invariant shape; under width scaling d, we observe that the top singular value scales approximately as eta/lambdacdot d^{0.75}. Combining this observation with the muP learning-rate rule eta_2propto d^{-1} for matrix-like parameters implies an empirical weight-decay scaling rule lambda_2propto d that approximately keeps sublayer gains width invariant. Together with vector-like parameters trained at eta_1=Theta_d(1) and lambda_1=0, this yields zero-shot transfer of both learning rate and weight decay from proxy to target widths, removing per-width sweeps. We validate the rule on LLaMA-style Transformers and in a minimal synthetic setting, and we provide a simple diagnostic, matching top singular values, to check sublayer-gain invariance. Our results extend muP beyond the near-init regime by explicitly controlling steady-state scales set by the optimizer, offering a practical recipe for width-robust hyperparameter transfer under AdamW.

Regole di Scalatura Robuste per Livelli tramite Ottimizzazione del Decadimento dei Pesi

Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

Abstract

Support