ChatPaper.aiChatPaper

За пределами оптимальности Chinchilla: учет вывода в законах масштабирования языковых моделей

Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws

December 31, 2023
Авторы: Nikhil Sardana, Jonathan Frankle
cs.AI

Аннотация

Эмпирические законы масштабирования больших языковых моделей (LLM) представляют собой формулы, которые оценивают изменения качества модели в результате увеличения количества параметров и объема обучающих данных. Однако эти формулы, включая популярные законы масштабирования DeepMind Chinchilla, не учитывают стоимость выполнения вывода (inference). Мы модифицируем законы Chinchilla, чтобы рассчитать оптимальное количество параметров LLM и объем предварительных обучающих данных для обучения и развертывания модели заданного качества и требований к выводу. Мы проводим наш анализ как с точки зрения вычислительного бюджета, так и реальных затрат и обнаруживаем, что исследователи LLM, ожидающие значительного спроса на вывод (~1 млрд запросов), должны обучать модели меньшего размера и дольше, чем это оптимально по Chinchilla.
English
Large language model (LLM) scaling laws are empirical formulas that estimate changes in model quality as a result of increasing parameter count and training data. However, these formulas, including the popular DeepMind Chinchilla scaling laws, neglect to include the cost of inference. We modify the Chinchilla scaling laws to calculate the optimal LLM parameter count and pre-training data size to train and deploy a model of a given quality and inference demand. We conduct our analysis both in terms of a compute budget and real-world costs and find that LLM researchers expecting reasonably large inference demand (~1B requests) should train models smaller and longer than Chinchilla-optimal.
PDF312December 15, 2024