Établissement des lois d'échelle des tâches via des échelles de modèles efficaces en calcul
Establishing Task Scaling Laws via Compute-Efficient Model Ladders
December 5, 2024
Auteurs: Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, Ananya Harsh Jha, Luca Soldaini, Noah A. Smith, Dirk Groeneveld, Pang Wei Koh, Jesse Dodge, Hannaneh Hajishirzi
cs.AI
Résumé
Nous développons des lois d'échelle des tâches et des modèles d'échelles pour prédire les performances individuelles des modèles de langage pré-entraînés (LM) dans le cadre de la sur-entraînement. Les lois de puissance standard pour la perte de modélisation de langage ne peuvent pas modéliser précisément les performances des tâches. Par conséquent, nous exploitons une approche de prédiction en deux étapes : d'abord utiliser la taille du modèle et des données pour prédire une perte spécifique à la tâche, puis utiliser cette perte de tâche pour prédire la performance de la tâche. Nous entraînons un ensemble de "modèles échelle" à petite échelle, collectons des points de données pour ajuster les fonctions paramétrées des deux étapes de prédiction, et faisons des prédictions pour deux modèles cibles : un modèle 7B entraîné avec 4T jetons et un modèle 13B entraîné avec 5T jetons. Entraîner les modèles échelle ne coûte que 1 % du calcul utilisé pour les modèles cibles. Sur quatre tâches à choix multiples rédigées au format de classification classée, nous pouvons prédire l'exactitude des deux modèles cibles avec une erreur absolue de 2 points. Nous avons une erreur de prédiction plus élevée sur quatre autres tâches (erreur absolue moyenne de 6,9) et constatons que ce sont souvent des tâches avec une plus grande variance dans les métriques de tâche. Nous constatons également que l'utilisation de moins de calcul pour entraîner moins de modèles échelle a tendance à détériorer les prédictions. Enfin, nous montrons empiriquement que nos choix de conception et l'approche en deux étapes conduisent à des performances supérieures pour établir des lois d'échelle.
English
We develop task scaling laws and model ladders to predict the individual task
performance of pretrained language models (LMs) in the overtrained setting.
Standard power laws for language modeling loss cannot accurately model task
performance. Therefore, we leverage a two-step prediction approach: first use
model and data size to predict a task-specific loss, and then use this task
loss to predict task performance. We train a set of small-scale "ladder"
models, collect data points to fit the parameterized functions of the two
prediction steps, and make predictions for two target models: a 7B model
trained to 4T tokens and a 13B model trained to 5T tokens. Training the ladder
models only costs 1% of the compute used for the target models. On four
multiple-choice tasks written in ranked classification format, we can predict
the accuracy of both target models within 2 points of absolute error. We have
higher prediction error on four other tasks (average absolute error 6.9) and
find that these are often tasks with higher variance in task metrics. We also
find that using less compute to train fewer ladder models tends to deteriorate
predictions. Finally, we empirically show that our design choices and the
two-step approach lead to superior performance in establishing scaling laws.Summary
AI-Generated Summary