Oltre l'ottimizzazione di Chinchilla: Considerare l'inferenza nelle leggi di scalabilità dei modelli linguistici

Abstract

Le leggi di scala dei modelli linguistici di grandi dimensioni (LLM) sono formule empiriche che stimano le variazioni nella qualità del modello in funzione dell'aumento del numero di parametri e dei dati di addestramento. Tuttavia, queste formule, comprese le popolari leggi di scala DeepMind Chinchilla, non tengono conto del costo dell'inferenza. Modifichiamo le leggi di scala Chinchilla per calcolare il numero ottimale di parametri di un LLM e la dimensione dei dati di pre-addestramento necessari per addestrare e distribuire un modello di una determinata qualità e con una specifica richiesta di inferenza. Condurremo la nostra analisi sia in termini di budget computazionale che di costi reali, e scopriremo che i ricercatori di LLM che si aspettano una richiesta di inferenza ragionevolmente ampia (~1 miliardo di richieste) dovrebbero addestrare modelli più piccoli e per un periodo più lungo rispetto a quanto suggerito dall'ottimizzazione Chinchilla.

English

Large language model (LLM) scaling laws are empirical formulas that estimate changes in model quality as a result of increasing parameter count and training data. However, these formulas, including the popular DeepMind Chinchilla scaling laws, neglect to include the cost of inference. We modify the Chinchilla scaling laws to calculate the optimal LLM parameter count and pre-training data size to train and deploy a model of a given quality and inference demand. We conduct our analysis both in terms of a compute budget and real-world costs and find that LLM researchers expecting reasonably large inference demand (~1B requests) should train models smaller and longer than Chinchilla-optimal.

Oltre l'ottimizzazione di Chinchilla: Considerare l'inferenza nelle leggi di scalabilità dei modelli linguistici

Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws

Abstract

Support