ChatPaper.aiChatPaper

Más allá de lo óptimo según Chinchilla: Considerando la inferencia en las leyes de escalamiento de modelos de lenguaje

Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws

December 31, 2023
Autores: Nikhil Sardana, Jonathan Frankle
cs.AI

Resumen

Las leyes de escalamiento de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) son fórmulas empíricas que estiman los cambios en la calidad del modelo como resultado del aumento en el número de parámetros y los datos de entrenamiento. Sin embargo, estas fórmulas, incluidas las populares leyes de escalamiento Chinchilla de DeepMind, no tienen en cuenta el costo de la inferencia. Modificamos las leyes de escalamiento Chinchilla para calcular el número óptimo de parámetros de un LLM y el tamaño de los datos de preentrenamiento necesarios para entrenar e implementar un modelo de una calidad y demanda de inferencia determinadas. Realizamos nuestro análisis tanto en términos de un presupuesto de cómputo como de costos del mundo real, y encontramos que los investigadores de LLM que esperan una demanda de inferencia razonablemente grande (~1B solicitudes) deberían entrenar modelos más pequeños y durante más tiempo que lo óptimo según Chinchilla.
English
Large language model (LLM) scaling laws are empirical formulas that estimate changes in model quality as a result of increasing parameter count and training data. However, these formulas, including the popular DeepMind Chinchilla scaling laws, neglect to include the cost of inference. We modify the Chinchilla scaling laws to calculate the optimal LLM parameter count and pre-training data size to train and deploy a model of a given quality and inference demand. We conduct our analysis both in terms of a compute budget and real-world costs and find that LLM researchers expecting reasonably large inference demand (~1B requests) should train models smaller and longer than Chinchilla-optimal.
PDF312December 15, 2024