Optimale schaling vereist een optimale norm

Samenvatting

Ondanks recente vooruitgang in het overdragen van optimale hyperparameters bij schaling van modellen en datasets, is er nog geen verenigend verklarend principe vastgesteld. Met behulp van de Scion-optimalisator ontdekken we dat gezamenlijke optimale schaling over model- en datasetgroottes wordt bepaald door een enkele invariant: de operatornorm van de uitvoerlaag. Over modellen met tot 1,3 miljard parameters getraind op tot 138 miljard tokens, heeft het optimale leerrate/batchgrootte-paar (eta^{ast}, B^{ast}) consistent dezelfde operatornormwaarde - een fenomeen dat we normoverdracht noemen. Deze constante normconditie is noodzakelijk maar niet voldoende: hoewel voor elke datasetgrootte meerdere (eta, B) de optimale norm bereiken, bereikt slechts een uniek (eta^{ast}, B^{ast}) het beste verlies. Als een voldoende voorwaarde bieden we de eerste meting van (eta^{ast}, B^{ast})-schaling met datasetgrootte voor Scion, en vinden we dat de schalingsregels consistent zijn met die van de Adam-optimalisator. Het afstemmen van leerraten per laaggroep verbetert ook de modelprestaties, waarbij de uitvoerlaag het meest gevoelig is en verborgen lagen profiteren van lagere leerraten. We bieden praktische inzichten in normgeleide optimale schaling en geven onze Distributed Scion (Disco)-implementatie vrij met logs van meer dan tweeduizend runs om onderzoek naar LLM-trainingsdynamica op grote schaal te ondersteunen.

English

Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that joint optimal scaling across model and dataset sizes is governed by a single invariant: the operator norm of the output layer. Across models with up to 1.3B parameters trained on up to 138B tokens, the optimal learning rate/batch size pair (eta^{ast}, B^{ast}) consistently has the same operator norm value - a phenomenon we term norm transfer. This constant norm condition is necessary but not sufficient: while for each dataset size, multiple (eta, B) reach the optimal norm, only a unique (eta^{ast}, B^{ast}) achieves the best loss. As a sufficient condition, we provide the first measurement of (eta^{ast}, B^{ast}) scaling with dataset size for Scion, and find that the scaling rules are consistent with those of the Adam optimizer. Tuning per-layer-group learning rates also improves model performance, with the output layer being the most sensitive and hidden layers benefiting from lower learning rates. We provide practical insights on norm-guided optimal scaling and release our Distributed Scion (Disco) implementation with logs from over two thousand runs to support research on LLM training dynamics at scale.

Optimale schaling vereist een optimale norm

Optimal Scaling Needs Optimal Norm

Samenvatting

Support