Vereinheitlichte neuronale Skalierungsgesetze

Zusammenfassung

Wir stellen eine Funktionsform (die wir als Unified Neural Scaling Law (UNSL) bezeichnen) vor, die das Skalierungsverhalten tiefer neuronaler Netze präzise modelliert und extrapoliert, wenn mehrere Dimensionen gleichzeitig variiert werden (d. h. wie sich die interessierende Bewertungsmetrik ändert, wenn gleichzeitig die Anzahl der Modellparameter, die Größe des Trainingsdatensatzes, die Anzahl der Trainingsschritte, die Anzahl der Inferenzschritte, die Rechenleistung und verschiedene Hyperparameter variiert werden), und zwar für verschiedene Architekturen und für jede einzelne Aufgabe innerhalb einer Vielzahl von vorgelagerten und nachgelagerten Aufgaben. Diese Menge umfasst groß angelegte Bildverarbeitung, Sprachverarbeitung, Mathematik und Reinforcement Learning. Im Vergleich zu anderen Funktionsformen für neuronale Skalierung liefert diese Funktionsform Extrapolationen des Skalierungsverhaltens, die für diese Menge wesentlich genauer sind.

English

We present a functional form (that we refer to as a Unified Neural Scaling Law (UNSL)) that accurately models and extrapolates the scaling behaviors of deep neural networks as multiple dimensions all vary simultaneously (i.e. how the evaluation metric of interest varies as one simultaneously varies the number of model parameters, training dataset size, number of training steps, number of inference steps, amount of compute, and various hyperparameters) for various architectures and for each of various tasks within a varied set of upstream and downstream tasks. This set includes large-scale vision, language, math, and reinforcement learning. When compared to other functional forms for neural scaling, this functional form yields extrapolations of scaling behavior that are considerably more accurate on this set.