ChatPaper.aiChatPaper

Etablierung von Aufgabenskalierungsgesetzen mittels recheneffizienten Modellleitern

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

December 5, 2024
Autoren: Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, Ananya Harsh Jha, Luca Soldaini, Noah A. Smith, Dirk Groeneveld, Pang Wei Koh, Jesse Dodge, Hannaneh Hajishirzi
cs.AI

Zusammenfassung

Wir entwickeln Aufgabenskalierungsgesetze und Modellleitern, um die individuelle Aufgabenleistung von vortrainierten Sprachmodellen (LMs) im übertrainierten Szenario vorherzusagen. Standardpotenzgesetze für den Verlust beim Sprachmodellieren können die Aufgabenleistung nicht genau modellieren. Daher nutzen wir einen zweistufigen Vorhersageansatz: Zuerst verwenden wir Modell- und Datengröße, um einen aufgabenspezifischen Verlust vorherzusagen, und verwenden dann diesen Aufgabenverlust, um die Aufgabenleistung vorherzusagen. Wir trainieren eine Reihe von kleinskaligen "Leiter"-Modellen, sammeln Datenpunkte, um die parametrisierten Funktionen der beiden Vorhersageschritte anzupassen, und treffen Vorhersagen für zwei Zielmodelle: ein 7B-Modell, das auf 4T Token trainiert ist, und ein 13B-Modell, das auf 5T Token trainiert ist. Das Training der Leitermodelle kostet nur 1 % der Rechenleistung, die für die Zielmodelle verwendet wird. Bei vier Multiple-Choice-Aufgaben im Format der gerankten Klassifizierung können wir die Genauigkeit beider Zielmodelle mit einem Fehler von maximal 2 Punkten vorhersagen. Wir haben einen höheren Vorhersagefehler bei vier anderen Aufgaben (durchschnittlicher absoluter Fehler 6,9) und stellen fest, dass dies oft Aufgaben mit höherer Varianz bei den Aufgabenmetriken sind. Wir finden auch heraus, dass die Verwendung von weniger Rechenleistung zur Schulung weniger Leitermodelle dazu neigt, die Vorhersagen zu verschlechtern. Schließlich zeigen wir empirisch, dass unsere Designentscheidungen und der zweistufige Ansatz zu einer überlegenen Leistung bei der Festlegung von Skalierungsgesetzen führen.
English
We develop task scaling laws and model ladders to predict the individual task performance of pretrained language models (LMs) in the overtrained setting. Standard power laws for language modeling loss cannot accurately model task performance. Therefore, we leverage a two-step prediction approach: first use model and data size to predict a task-specific loss, and then use this task loss to predict task performance. We train a set of small-scale "ladder" models, collect data points to fit the parameterized functions of the two prediction steps, and make predictions for two target models: a 7B model trained to 4T tokens and a 13B model trained to 5T tokens. Training the ladder models only costs 1% of the compute used for the target models. On four multiple-choice tasks written in ranked classification format, we can predict the accuracy of both target models within 2 points of absolute error. We have higher prediction error on four other tasks (average absolute error 6.9) and find that these are often tasks with higher variance in task metrics. We also find that using less compute to train fewer ladder models tends to deteriorate predictions. Finally, we empirically show that our design choices and the two-step approach lead to superior performance in establishing scaling laws.

Summary

AI-Generated Summary

PDF32December 7, 2024