Estabelecendo Leis de Escalonamento de Tarefas por Meio de Escadas de Modelos Eficientes em Termos de Computação.
Establishing Task Scaling Laws via Compute-Efficient Model Ladders
December 5, 2024
Autores: Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, Ananya Harsh Jha, Luca Soldaini, Noah A. Smith, Dirk Groeneveld, Pang Wei Koh, Jesse Dodge, Hannaneh Hajishirzi
cs.AI
Resumo
Desenvolvemos leis de escalonamento de tarefas e modelos de escadas para prever o desempenho individual de tarefas de modelos de linguagem pré-treinados (LMs) no cenário de sobreajuste. As leis de potência padrão para perda de modelagem de linguagem não conseguem modelar com precisão o desempenho da tarefa. Portanto, aproveitamos uma abordagem de previsão em duas etapas: primeiro, usamos o tamanho do modelo e dos dados para prever uma perda específica da tarefa e, em seguida, usamos essa perda da tarefa para prever o desempenho da tarefa. Treinamos um conjunto de modelos em pequena escala "escada", coletamos pontos de dados para ajustar as funções parametrizadas das duas etapas de previsão e fazemos previsões para dois modelos-alvo: um modelo de 7B treinado com 4T tokens e um modelo de 13B treinado com 5T tokens. Treinar os modelos de escada custa apenas 1% do cálculo usado nos modelos-alvo. Em quatro tarefas de múltipla escolha escritas em formato de classificação classificada, podemos prever a precisão de ambos os modelos-alvo com um erro absoluto de até 2 pontos. Temos um erro de previsão mais alto em outras quatro tarefas (erro absoluto médio de 6,9) e descobrimos que essas são frequentemente tarefas com maior variância nas métricas da tarefa. Também descobrimos que usar menos cálculos para treinar menos modelos de escada tende a deteriorar as previsões. Por fim, mostramos empiricamente que nossas escolhas de design e a abordagem em duas etapas levam a um desempenho superior na definição de leis de escalonamento.
English
We develop task scaling laws and model ladders to predict the individual task
performance of pretrained language models (LMs) in the overtrained setting.
Standard power laws for language modeling loss cannot accurately model task
performance. Therefore, we leverage a two-step prediction approach: first use
model and data size to predict a task-specific loss, and then use this task
loss to predict task performance. We train a set of small-scale "ladder"
models, collect data points to fit the parameterized functions of the two
prediction steps, and make predictions for two target models: a 7B model
trained to 4T tokens and a 13B model trained to 5T tokens. Training the ladder
models only costs 1% of the compute used for the target models. On four
multiple-choice tasks written in ranked classification format, we can predict
the accuracy of both target models within 2 points of absolute error. We have
higher prediction error on four other tasks (average absolute error 6.9) and
find that these are often tasks with higher variance in task metrics. We also
find that using less compute to train fewer ladder models tends to deteriorate
predictions. Finally, we empirically show that our design choices and the
two-step approach lead to superior performance in establishing scaling laws.Summary
AI-Generated Summary