Optimale Skalierung erfordert optimale Normierung

papers.abstract

Trotz jüngster Fortschritte beim optimalen Transfer von Hyperparametern unter Skalierung von Modellen und Datensätzen wurde kein einheitliches Erklärungsprinzip etabliert. Mithilfe des Scion-Optimierers entdecken wir, dass die gemeinsame optimale Skalierung über Modell- und Datensatzgrößen durch eine einzige Invariante bestimmt wird: die Operatornorm der Ausgabeschicht. Bei Modellen mit bis zu 1,3 Milliarden Parametern, die mit bis zu 138 Milliarden Tokens trainiert wurden, weist das optimale Lernraten/Batch-Größen-Paar (η^∗, B^∗) durchweg denselben Operatornorm-Wert auf – ein Phänomen, das wir als Normtransfer bezeichnen. Diese konstante Norm-Bedingung ist notwendig, aber nicht hinreichend: Während für jede Datensatzgröße mehrere (η, B) die optimale Norm erreichen, erzielt nur ein einziges (η^∗, B^∗) den besten Verlust. Als hinreichende Bedingung liefern wir die erste Messung der Skalierung von (η^∗, B^∗) mit der Datensatzgröße für Scion und stellen fest, dass die Skalierungsregeln mit denen des Adam-Optimierers übereinstimmen. Die Feinabstimmung der Lernraten pro Schichtgruppe verbessert ebenfalls die Modellleistung, wobei die Ausgabeschicht am empfindlichsten ist und versteckte Schichten von niedrigeren Lernraten profitieren. Wir bieten praktische Einblicke in die normgeleitete optimale Skalierung und veröffentlichen unsere Implementierung von Distributed Scion (Disco) mit Protokollen aus über zweitausend Durchläufen, um die Forschung zu den Trainingsdynamiken von LLMs im großen Maßstab zu unterstützen.

English

Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that joint optimal scaling across model and dataset sizes is governed by a single invariant: the operator norm of the output layer. Across models with up to 1.3B parameters trained on up to 138B tokens, the optimal learning rate/batch size pair (eta^{ast}, B^{ast}) consistently has the same operator norm value - a phenomenon we term norm transfer. This constant norm condition is necessary but not sufficient: while for each dataset size, multiple (eta, B) reach the optimal norm, only a unique (eta^{ast}, B^{ast}) achieves the best loss. As a sufficient condition, we provide the first measurement of (eta^{ast}, B^{ast}) scaling with dataset size for Scion, and find that the scaling rules are consistent with those of the Adam optimizer. Tuning per-layer-group learning rates also improves model performance, with the output layer being the most sensitive and hidden layers benefiting from lower learning rates. We provide practical insights on norm-guided optimal scaling and release our Distributed Scion (Disco) implementation with logs from over two thousand runs to support research on LLM training dynamics at scale.

Optimale Skalierung erfordert optimale Normierung

Optimal Scaling Needs Optimal Norm

papers.abstract

Support