Optimale schaling vereist een optimale norm
Optimal Scaling Needs Optimal Norm
October 4, 2025
Auteurs: Oleg Filatov, Jiangtao Wang, Jan Ebert, Stefan Kesselheim
cs.AI
Samenvatting
Ondanks recente vooruitgang in het overdragen van optimale hyperparameters bij schaling van modellen en datasets, is er nog geen verenigend verklarend principe vastgesteld. Met behulp van de Scion-optimalisator ontdekken we dat gezamenlijke optimale schaling over model- en datasetgroottes wordt bepaald door een enkele invariant: de operatornorm van de uitvoerlaag. Over modellen met tot 1,3 miljard parameters getraind op tot 138 miljard tokens, heeft het optimale leerrate/batchgrootte-paar (eta^{ast}, B^{ast}) consistent dezelfde operatornormwaarde - een fenomeen dat we normoverdracht noemen. Deze constante normconditie is noodzakelijk maar niet voldoende: hoewel voor elke datasetgrootte meerdere (eta, B) de optimale norm bereiken, bereikt slechts een uniek (eta^{ast}, B^{ast}) het beste verlies. Als een voldoende voorwaarde bieden we de eerste meting van (eta^{ast}, B^{ast})-schaling met datasetgrootte voor Scion, en vinden we dat de schalingsregels consistent zijn met die van de Adam-optimalisator. Het afstemmen van leerraten per laaggroep verbetert ook de modelprestaties, waarbij de uitvoerlaag het meest gevoelig is en verborgen lagen profiteren van lagere leerraten. We bieden praktische inzichten in normgeleide optimale schaling en geven onze Distributed Scion (Disco)-implementatie vrij met logs van meer dan tweeduizend runs om onderzoek naar LLM-trainingsdynamica op grote schaal te ondersteunen.
English
Despite recent progress in optimal hyperparameter transfer under model and
dataset scaling, no unifying explanatory principle has been established. Using
the Scion optimizer, we discover that joint optimal scaling across model and
dataset sizes is governed by a single invariant: the operator norm of the
output layer. Across models with up to 1.3B parameters trained on up to 138B
tokens, the optimal learning rate/batch size pair (eta^{ast}, B^{ast})
consistently has the same operator norm value - a phenomenon we term norm
transfer. This constant norm condition is necessary but not sufficient: while
for each dataset size, multiple (eta, B) reach the optimal norm, only a
unique (eta^{ast}, B^{ast}) achieves the best loss. As a sufficient
condition, we provide the first measurement of (eta^{ast}, B^{ast})
scaling with dataset size for Scion, and find that the scaling rules are
consistent with those of the Adam optimizer. Tuning per-layer-group learning
rates also improves model performance, with the output layer being the most
sensitive and hidden layers benefiting from lower learning rates. We provide
practical insights on norm-guided optimal scaling and release our Distributed
Scion (Disco) implementation with logs from over two thousand runs to support
research on LLM training dynamics at scale.