Estabelecendo Leis de Escalonamento de Tarefas por Meio de Escadas de Modelos Eficientes em Termos de Computação.

Resumo

Desenvolvemos leis de escalonamento de tarefas e modelos de escadas para prever o desempenho individual de tarefas de modelos de linguagem pré-treinados (LMs) no cenário de sobreajuste. As leis de potência padrão para perda de modelagem de linguagem não conseguem modelar com precisão o desempenho da tarefa. Portanto, aproveitamos uma abordagem de previsão em duas etapas: primeiro, usamos o tamanho do modelo e dos dados para prever uma perda específica da tarefa e, em seguida, usamos essa perda da tarefa para prever o desempenho da tarefa. Treinamos um conjunto de modelos em pequena escala "escada", coletamos pontos de dados para ajustar as funções parametrizadas das duas etapas de previsão e fazemos previsões para dois modelos-alvo: um modelo de 7B treinado com 4T tokens e um modelo de 13B treinado com 5T tokens. Treinar os modelos de escada custa apenas 1% do cálculo usado nos modelos-alvo. Em quatro tarefas de múltipla escolha escritas em formato de classificação classificada, podemos prever a precisão de ambos os modelos-alvo com um erro absoluto de até 2 pontos. Temos um erro de previsão mais alto em outras quatro tarefas (erro absoluto médio de 6,9) e descobrimos que essas são frequentemente tarefas com maior variância nas métricas da tarefa. Também descobrimos que usar menos cálculos para treinar menos modelos de escada tende a deteriorar as previsões. Por fim, mostramos empiricamente que nossas escolhas de design e a abordagem em duas etapas levam a um desempenho superior na definição de leis de escalonamento.

English

We develop task scaling laws and model ladders to predict the individual task performance of pretrained language models (LMs) in the overtrained setting. Standard power laws for language modeling loss cannot accurately model task performance. Therefore, we leverage a two-step prediction approach: first use model and data size to predict a task-specific loss, and then use this task loss to predict task performance. We train a set of small-scale "ladder" models, collect data points to fit the parameterized functions of the two prediction steps, and make predictions for two target models: a 7B model trained to 4T tokens and a 13B model trained to 5T tokens. Training the ladder models only costs 1% of the compute used for the target models. On four multiple-choice tasks written in ranked classification format, we can predict the accuracy of both target models within 2 points of absolute error. We have higher prediction error on four other tasks (average absolute error 6.9) and find that these are often tasks with higher variance in task metrics. We also find that using less compute to train fewer ladder models tends to deteriorate predictions. Finally, we empirically show that our design choices and the two-step approach lead to superior performance in establishing scaling laws.

Estabelecendo Leis de Escalonamento de Tarefas por Meio de Escadas de Modelos Eficientes em Termos de Computação.

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Resumo

Support