Optimale Skalierung erfordert optimale Normierung
Optimal Scaling Needs Optimal Norm
October 4, 2025
papers.authors: Oleg Filatov, Jiangtao Wang, Jan Ebert, Stefan Kesselheim
cs.AI
papers.abstract
Trotz jüngster Fortschritte beim optimalen Transfer von Hyperparametern unter Skalierung von Modellen und Datensätzen wurde kein einheitliches Erklärungsprinzip etabliert. Mithilfe des Scion-Optimierers entdecken wir, dass die gemeinsame optimale Skalierung über Modell- und Datensatzgrößen durch eine einzige Invariante bestimmt wird: die Operatornorm der Ausgabeschicht. Bei Modellen mit bis zu 1,3 Milliarden Parametern, die mit bis zu 138 Milliarden Tokens trainiert wurden, weist das optimale Lernraten/Batch-Größen-Paar (η^∗, B^∗) durchweg denselben Operatornorm-Wert auf – ein Phänomen, das wir als Normtransfer bezeichnen. Diese konstante Norm-Bedingung ist notwendig, aber nicht hinreichend: Während für jede Datensatzgröße mehrere (η, B) die optimale Norm erreichen, erzielt nur ein einziges (η^∗, B^∗) den besten Verlust. Als hinreichende Bedingung liefern wir die erste Messung der Skalierung von (η^∗, B^∗) mit der Datensatzgröße für Scion und stellen fest, dass die Skalierungsregeln mit denen des Adam-Optimierers übereinstimmen. Die Feinabstimmung der Lernraten pro Schichtgruppe verbessert ebenfalls die Modellleistung, wobei die Ausgabeschicht am empfindlichsten ist und versteckte Schichten von niedrigeren Lernraten profitieren. Wir bieten praktische Einblicke in die normgeleitete optimale Skalierung und veröffentlichen unsere Implementierung von Distributed Scion (Disco) mit Protokollen aus über zweitausend Durchläufen, um die Forschung zu den Trainingsdynamiken von LLMs im großen Maßstab zu unterstützen.
English
Despite recent progress in optimal hyperparameter transfer under model and
dataset scaling, no unifying explanatory principle has been established. Using
the Scion optimizer, we discover that joint optimal scaling across model and
dataset sizes is governed by a single invariant: the operator norm of the
output layer. Across models with up to 1.3B parameters trained on up to 138B
tokens, the optimal learning rate/batch size pair (eta^{ast}, B^{ast})
consistently has the same operator norm value - a phenomenon we term norm
transfer. This constant norm condition is necessary but not sufficient: while
for each dataset size, multiple (eta, B) reach the optimal norm, only a
unique (eta^{ast}, B^{ast}) achieves the best loss. As a sufficient
condition, we provide the first measurement of (eta^{ast}, B^{ast})
scaling with dataset size for Scion, and find that the scaling rules are
consistent with those of the Adam optimizer. Tuning per-layer-group learning
rates also improves model performance, with the output layer being the most
sensitive and hidden layers benefiting from lower learning rates. We provide
practical insights on norm-guided optimal scaling and release our Distributed
Scion (Disco) implementation with logs from over two thousand runs to support
research on LLM training dynamics at scale.