Закон сгущения для LLM-моделей
Densing Law of LLMs
December 5, 2024
Авторы: Chaojun Xiao, Jie Cai, Weilin Zhao, Guoyang Zeng, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Аннотация
Большие языковые модели (LLM) стали вехой в искусственном интеллекте, и их производительность может улучшаться по мере увеличения размера модели. Однако это масштабирование создает большие вызовы для эффективности обучения и вывода, особенно при развертывании LLM в ресурсоемких средах, и тенденция масштабирования становится все более непосильной. В данной статье представлен концепт "плотности емкости" в качестве новой метрики для оценки качества LLM на различных масштабах и описывается тенденция LLM с точки зрения как эффективности, так и эффективности. Для расчета плотности емкости данной целевой LLM мы сначала вводим набор эталонных моделей и разрабатываем закон масштабирования для прогнозирования последующей производительности этих эталонных моделей на основе их размеров параметров. Затем мы определяем эффективный размер параметра целевой LLM как размер параметра, необходимый эталонной модели для достижения эквивалентной производительности, и формализуем плотность емкости как отношение эффективного размера параметра к фактическому размеру параметра целевой LLM. Плотность емкости предоставляет единый каркас для оценки как эффективности модели, так и эффективности. Наше дальнейшее анализ недавно опубликованных базовых LLM с открытым исходным кодом раскрывает эмпирический закон (закон уплотнения), согласно которому плотность емкости LLM экспоненциально растет со временем. Более конкретно, используя некоторые широко используемые бенчмарки для оценки, плотность емкости LLM удваивается примерно каждые три месяца. Этот закон предоставляет новые перспективы для руководства будущим развитием LLM, подчеркивая важность улучшения плотности емкости для достижения оптимальных результатов с минимальными вычислительными затратами.
English
Large Language Models (LLMs) have emerged as a milestone in artificial
intelligence, and their performance can improve as the model size increases.
However, this scaling brings great challenges to training and inference
efficiency, particularly for deploying LLMs in resource-constrained
environments, and the scaling trend is becoming increasingly unsustainable.
This paper introduces the concept of ``capacity density'' as a new
metric to evaluate the quality of the LLMs across different scales and
describes the trend of LLMs in terms of both effectiveness and efficiency. To
calculate the capacity density of a given target LLM, we first introduce a set
of reference models and develop a scaling law to predict the downstream
performance of these reference models based on their parameter sizes. We then
define the effective parameter size of the target LLM as the parameter
size required by a reference model to achieve equivalent performance, and
formalize the capacity density as the ratio of the effective parameter size to
the actual parameter size of the target LLM. Capacity density provides a
unified framework for assessing both model effectiveness and efficiency. Our
further analysis of recent open-source base LLMs reveals an empirical law (the
densing law)that the capacity density of LLMs grows exponentially over time.
More specifically, using some widely used benchmarks for evaluation, the
capacity density of LLMs doubles approximately every three months. The law
provides new perspectives to guide future LLM development, emphasizing the
importance of improving capacity density to achieve optimal results with
minimal computational overhead.Summary
AI-Generated Summary