Une mise à l'échelle optimale nécessite une norme optimale

papers.abstract

Malgré les progrès récents dans le transfert optimal des hyperparamètres lors de la mise à l'échelle des modèles et des jeux de données, aucun principe explicatif unificateur n'a été établi. En utilisant l'optimiseur Scion, nous découvrons que la mise à l'échelle optimale conjointe des tailles de modèle et de jeu de données est régie par un seul invariant : la norme d'opérateur de la couche de sortie. Pour des modèles allant jusqu'à 1,3 milliard de paramètres entraînés sur jusqu'à 138 milliards de tokens, le couple optimal taux d'apprentissage/taille de lot (eta^{ast}, B^{ast}) présente systématiquement la même valeur de norme d'opérateur - un phénomène que nous appelons transfert de norme. Cette condition de norme constante est nécessaire mais non suffisante : bien que pour chaque taille de jeu de données, plusieurs couples (eta, B) atteignent la norme optimale, seul un unique (eta^{ast}, B^{ast}) permet d'obtenir la meilleure perte. Comme condition suffisante, nous fournissons la première mesure de la mise à l'échelle de (eta^{ast}, B^{ast}) avec la taille du jeu de données pour Scion, et constatons que les règles de mise à l'échelle sont cohérentes avec celles de l'optimiseur Adam. L'ajustement des taux d'apprentissage par groupe de couches améliore également les performances du modèle, la couche de sortie étant la plus sensible et les couches cachées bénéficiant de taux d'apprentissage plus faibles. Nous fournissons des insights pratiques sur la mise à l'échelle optimale guidée par la norme et publions notre implémentation de Scion Distribué (Disco) avec les logs de plus de deux mille exécutions pour soutenir la recherche sur la dynamique d'entraînement des LLM à grande échelle.

English

Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that joint optimal scaling across model and dataset sizes is governed by a single invariant: the operator norm of the output layer. Across models with up to 1.3B parameters trained on up to 138B tokens, the optimal learning rate/batch size pair (eta^{ast}, B^{ast}) consistently has the same operator norm value - a phenomenon we term norm transfer. This constant norm condition is necessary but not sufficient: while for each dataset size, multiple (eta, B) reach the optimal norm, only a unique (eta^{ast}, B^{ast}) achieves the best loss. As a sufficient condition, we provide the first measurement of (eta^{ast}, B^{ast}) scaling with dataset size for Scion, and find that the scaling rules are consistent with those of the Adam optimizer. Tuning per-layer-group learning rates also improves model performance, with the output layer being the most sensitive and hidden layers benefiting from lower learning rates. We provide practical insights on norm-guided optimal scaling and release our Distributed Scion (Disco) implementation with logs from over two thousand runs to support research on LLM training dynamics at scale.

Une mise à l'échelle optimale nécessite une norme optimale

Optimal Scaling Needs Optimal Norm

papers.abstract

Support