Além do Ótimo de Chinchilla: Considerando a Inferência nas Leis de Escalonamento de Modelos de Linguagem
Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws
December 31, 2023
Autores: Nikhil Sardana, Jonathan Frankle
cs.AI
Resumo
As leis de escala de modelos de linguagem de grande porte (LLMs) são fórmulas empíricas que estimam mudanças na qualidade do modelo como resultado do aumento no número de parâmetros e dos dados de treinamento. No entanto, essas fórmulas, incluindo as populares leis de escala Chinchilla da DeepMind, deixam de considerar o custo de inferência. Nós modificamos as leis de escala Chinchilla para calcular o número ideal de parâmetros de um LLM e o tamanho dos dados de pré-treinamento necessários para treinar e implantar um modelo de uma determinada qualidade e demanda de inferência. Realizamos nossa análise tanto em termos de um orçamento de computação quanto de custos do mundo real e descobrimos que pesquisadores de LLMs que esperam uma demanda de inferência razoavelmente grande (~1 bilhão de solicitações) devem treinar modelos menores e por mais tempo do que o ótimo sugerido pela Chinchilla.
English
Large language model (LLM) scaling laws are empirical formulas that estimate
changes in model quality as a result of increasing parameter count and training
data. However, these formulas, including the popular DeepMind Chinchilla
scaling laws, neglect to include the cost of inference. We modify the
Chinchilla scaling laws to calculate the optimal LLM parameter count and
pre-training data size to train and deploy a model of a given quality and
inference demand. We conduct our analysis both in terms of a compute budget and
real-world costs and find that LLM researchers expecting reasonably large
inference demand (~1B requests) should train models smaller and longer than
Chinchilla-optimal.