Lois d'échelle neuronales unifiées
Unified Neural Scaling Laws
May 25, 2026
Auteurs: Ethan Caballero, Priyank Jaini, David Krueger, Irina Rish
cs.AI
Résumé
Nous présentons une forme fonctionnelle (que nous désignons sous le nom de Loi de Mise à l'Échelle Neuronale Unifiée, ou UNSL) qui modélise et extrapole avec précision les comportements de mise à l'échelle des réseaux de neurones profonds lorsque plusieurs dimensions varient simultanément (c'est-à-dire comment la métrique d'évaluation d'intérêt évolue lorsque l'on fait varier en même temps le nombre de paramètres du modèle, la taille de l'ensemble de données d'entraînement, le nombre d'étapes d'entraînement, le nombre d'étapes d'inférence, la quantité de calcul et divers hyperparamètres), et ce pour différentes architectures et pour chacune des diverses tâches au sein d'un ensemble varié de tâches en amont et en aval. Cet ensemble inclut la vision à grande échelle, le langage, les mathématiques et l'apprentissage par renforcement. En comparaison avec d'autres formes fonctionnelles de mise à l'échelle neuronale, cette forme fonctionnelle produit des extrapolations du comportement de mise à l'échelle qui sont considérablement plus précises sur cet ensemble.
English
We present a functional form (that we refer to as a Unified Neural Scaling Law (UNSL)) that accurately models and extrapolates the scaling behaviors of deep neural networks as multiple dimensions all vary simultaneously (i.e. how the evaluation metric of interest varies as one simultaneously varies the number of model parameters, training dataset size, number of training steps, number of inference steps, amount of compute, and various hyperparameters) for various architectures and for each of various tasks within a varied set of upstream and downstream tasks. This set includes large-scale vision, language, math, and reinforcement learning. When compared to other functional forms for neural scaling, this functional form yields extrapolations of scaling behavior that are considerably more accurate on this set.