Voorbij Chinchilla-Optimaal: Rekening houden met inferentie in schaalwetten voor taalmodellen
Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws
December 31, 2023
Auteurs: Nikhil Sardana, Jonathan Frankle
cs.AI
Samenvatting
Schaalwetten voor grote taalmodellen (LLM's) zijn empirische formules die veranderingen in modelkwaliteit schatten als gevolg van een toenemend aantal parameters en trainingsdata. Deze formules, inclusief de populaire DeepMind Chinchilla-schaalwetten, houden echter geen rekening met de kosten van inferentie. Wij passen de Chinchilla-schaalwetten aan om het optimale aantal LLM-parameters en de optimale omvang van de pre-trainingsdata te berekenen voor het trainen en implementeren van een model met een gegeven kwaliteit en inferentievraag. We voeren onze analyse uit in termen van een rekenbudget en reële kosten, en concluderen dat LLM-onderzoekers die een redelijk grote inferentievraag verwachten (~1 miljard verzoeken), modellen kleiner en langer moeten trainen dan Chinchilla-optimaal.
English
Large language model (LLM) scaling laws are empirical formulas that estimate
changes in model quality as a result of increasing parameter count and training
data. However, these formulas, including the popular DeepMind Chinchilla
scaling laws, neglect to include the cost of inference. We modify the
Chinchilla scaling laws to calculate the optimal LLM parameter count and
pre-training data size to train and deploy a model of a given quality and
inference demand. We conduct our analysis both in terms of a compute budget and
real-world costs and find that LLM researchers expecting reasonably large
inference demand (~1B requests) should train models smaller and longer than
Chinchilla-optimal.