Loi de Densing des LLM
Densing Law of LLMs
December 5, 2024
Auteurs: Chaojun Xiao, Jie Cai, Weilin Zhao, Guoyang Zeng, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Résumé
Les grands modèles de langage (GML), se sont imposés comme une étape importante dans le domaine de l'intelligence artificielle, et leurs performances peuvent s'améliorer à mesure que la taille du modèle augmente. Cependant, cette mise à l'échelle pose de grands défis en termes d'efficacité d'entraînement et d'inférence, notamment pour le déploiement des GML dans des environnements aux ressources limitées, et la tendance à la mise à l'échelle devient de plus en plus insoutenable. Ce document introduit le concept de "densité de capacité" comme nouvelle métrique pour évaluer la qualité des GML à différentes échelles et décrit la tendance des GML en termes d'efficacité et d'efficience. Pour calculer la densité de capacité d'un GML cible donné, nous introduisons d'abord un ensemble de modèles de référence et développons une loi d'échelle pour prédire les performances ultérieures de ces modèles de référence en fonction de leurs tailles de paramètres. Nous définissons ensuite la taille de paramètre effective du GML cible comme la taille de paramètre requise par un modèle de référence pour atteindre des performances équivalentes, et formalisons la densité de capacité comme le ratio de la taille de paramètre effective à la taille de paramètre réelle du GML cible. La densité de capacité fournit un cadre unifié pour évaluer à la fois l'efficacité et l'efficience du modèle. Notre analyse approfondie des récents GML de base open-source révèle une loi empirique (la loi de densification) selon laquelle la densité de capacité des GML croît de manière exponentielle au fil du temps. Plus précisément, en utilisant certains benchmarks largement utilisés pour l'évaluation, la densité de capacité des GML double environ tous les trois mois. Cette loi offre de nouvelles perspectives pour guider le développement futur des GML, en soulignant l'importance d'améliorer la densité de capacité pour obtenir des résultats optimaux avec un minimum de surcharge computationnelle.
English
Large Language Models (LLMs) have emerged as a milestone in artificial
intelligence, and their performance can improve as the model size increases.
However, this scaling brings great challenges to training and inference
efficiency, particularly for deploying LLMs in resource-constrained
environments, and the scaling trend is becoming increasingly unsustainable.
This paper introduces the concept of ``capacity density'' as a new
metric to evaluate the quality of the LLMs across different scales and
describes the trend of LLMs in terms of both effectiveness and efficiency. To
calculate the capacity density of a given target LLM, we first introduce a set
of reference models and develop a scaling law to predict the downstream
performance of these reference models based on their parameter sizes. We then
define the effective parameter size of the target LLM as the parameter
size required by a reference model to achieve equivalent performance, and
formalize the capacity density as the ratio of the effective parameter size to
the actual parameter size of the target LLM. Capacity density provides a
unified framework for assessing both model effectiveness and efficiency. Our
further analysis of recent open-source base LLMs reveals an empirical law (the
densing law)that the capacity density of LLMs grows exponentially over time.
More specifically, using some widely used benchmarks for evaluation, the
capacity density of LLMs doubles approximately every three months. The law
provides new perspectives to guide future LLM development, emphasizing the
importance of improving capacity density to achieve optimal results with
minimal computational overhead.Summary
AI-Generated Summary