Jenseits von Chinchilla-Optimal: Berücksichtigung der Inferenz in Skalierungsgesetzen für Sprachmodelle
Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws
December 31, 2023
papers.authors: Nikhil Sardana, Jonathan Frankle
cs.AI
papers.abstract
Skalierungsgesetze für große Sprachmodelle (LLMs) sind empirische Formeln, die Veränderungen in der Modellqualität als Folge einer Erhöhung der Parameteranzahl und der Trainingsdaten abschätzen. Diese Formeln, einschließlich der bekannten DeepMind Chinchilla-Skalierungsgesetze, berücksichtigen jedoch nicht die Kosten für Inferenz. Wir modifizieren die Chinchilla-Skalierungsgesetze, um die optimale Parameteranzahl und die Größe der Vorab-Trainingsdaten zu berechnen, die benötigt werden, um ein Modell einer bestimmten Qualität und Inferenzanforderung zu trainieren und bereitzustellen. Wir führen unsere Analyse sowohl in Bezug auf ein Rechenbudget als auch auf reale Kosten durch und stellen fest, dass LLM-Forscher, die mit einem vernünftig großen Inferenzbedarf (~1 Mrd. Anfragen) rechnen, Modelle kleiner und länger trainieren sollten, als es die Chinchilla-Optimierung vorsieht.
English
Large language model (LLM) scaling laws are empirical formulas that estimate
changes in model quality as a result of increasing parameter count and training
data. However, these formulas, including the popular DeepMind Chinchilla
scaling laws, neglect to include the cost of inference. We modify the
Chinchilla scaling laws to calculate the optimal LLM parameter count and
pre-training data size to train and deploy a model of a given quality and
inference demand. We conduct our analysis both in terms of a compute budget and
real-world costs and find that LLM researchers expecting reasonably large
inference demand (~1B requests) should train models smaller and longer than
Chinchilla-optimal.