Au-delà de l'optimalité de Chinchilla : Prendre en compte l'inférence dans les lois d'échelle des modèles de langage
Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws
December 31, 2023
Auteurs: Nikhil Sardana, Jonathan Frankle
cs.AI
Résumé
Les lois d'échelle des grands modèles de langage (LLM) sont des formules empiriques qui estiment les changements dans la qualité du modèle en fonction de l'augmentation du nombre de paramètres et des données d'entraînement. Cependant, ces formules, y compris les lois d'échelle Chinchilla de DeepMind, ne prennent pas en compte le coût de l'inférence. Nous modifions les lois d'échelle Chinchilla pour calculer le nombre optimal de paramètres d'un LLM et la taille des données de pré-entraînement nécessaires pour entraîner et déployer un modèle d'une qualité et d'une demande d'inférence données. Nous menons notre analyse à la fois en termes de budget de calcul et de coûts réels, et constatons que les chercheurs en LLM anticipant une demande d'inférence raisonnablement élevée (~1 milliard de requêtes) devraient entraîner des modèles plus petits et plus longtemps que ce que préconisent les lois Chinchilla optimales.
English
Large language model (LLM) scaling laws are empirical formulas that estimate
changes in model quality as a result of increasing parameter count and training
data. However, these formulas, including the popular DeepMind Chinchilla
scaling laws, neglect to include the cost of inference. We modify the
Chinchilla scaling laws to calculate the optimal LLM parameter count and
pre-training data size to train and deploy a model of a given quality and
inference demand. We conduct our analysis both in terms of a compute budget and
real-world costs and find that LLM researchers expecting reasonably large
inference demand (~1B requests) should train models smaller and longer than
Chinchilla-optimal.