Densing-Gesetz von LLMs
Densing Law of LLMs
December 5, 2024
Autoren: Chaojun Xiao, Jie Cai, Weilin Zhao, Guoyang Zeng, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben sich als Meilenstein in der künstlichen Intelligenz etabliert, und ihre Leistungsfähigkeit kann sich mit zunehmender Modellgröße verbessern. Diese Skalierung bringt jedoch große Herausforderungen für die Effizienz des Trainings und der Inferenz mit sich, insbesondere bei der Bereitstellung von LLMs in ressourcenbeschränkten Umgebungen, und der Skalierungstrend wird zunehmend als nicht nachhaltig angesehen. Dieser Artikel führt das Konzept der "Kapazitätsdichte" als neue Metrik ein, um die Qualität der LLMs über verschiedene Skalen hinweg zu bewerten und beschreibt den Trend der LLMs in Bezug auf Effektivität und Effizienz. Um die Kapazitätsdichte eines bestimmten Ziel-LLMs zu berechnen, führen wir zunächst eine Reihe von Referenzmodellen ein und entwickeln ein Skalierungsgesetz, um die Leistung dieser Referenzmodelle basierend auf ihren Parametergrößen vorherzusagen. Anschließend definieren wir die effektive Parametergröße des Ziel-LLMs als die Parametergröße, die von einem Referenzmodell benötigt wird, um eine äquivalente Leistung zu erzielen, und formalisieren die Kapazitätsdichte als das Verhältnis der effektiven Parametergröße zur tatsächlichen Parametergröße des Ziel-LLMs. Die Kapazitätsdichte bietet einen einheitlichen Rahmen zur Bewertung sowohl der Modell-Effektivität als auch der Effizienz. Unsere weitere Analyse von aktuellen Open-Source-Basis-LLMs zeigt ein empirisches Gesetz (das Verdichtungsgesetz), wonach die Kapazitätsdichte von LLMs im Laufe der Zeit exponentiell wächst. Genauer gesagt verdoppelt sich die Kapazitätsdichte von LLMs ungefähr alle drei Monate, basierend auf einigen weit verbreiteten Benchmarks zur Bewertung. Dieses Gesetz bietet neue Perspektiven zur Steuerung zukünftiger LLM-Entwicklungen und betont die Bedeutung der Verbesserung der Kapazitätsdichte, um optimale Ergebnisse mit minimalem Rechenaufwand zu erzielen.
English
Large Language Models (LLMs) have emerged as a milestone in artificial
intelligence, and their performance can improve as the model size increases.
However, this scaling brings great challenges to training and inference
efficiency, particularly for deploying LLMs in resource-constrained
environments, and the scaling trend is becoming increasingly unsustainable.
This paper introduces the concept of ``capacity density'' as a new
metric to evaluate the quality of the LLMs across different scales and
describes the trend of LLMs in terms of both effectiveness and efficiency. To
calculate the capacity density of a given target LLM, we first introduce a set
of reference models and develop a scaling law to predict the downstream
performance of these reference models based on their parameter sizes. We then
define the effective parameter size of the target LLM as the parameter
size required by a reference model to achieve equivalent performance, and
formalize the capacity density as the ratio of the effective parameter size to
the actual parameter size of the target LLM. Capacity density provides a
unified framework for assessing both model effectiveness and efficiency. Our
further analysis of recent open-source base LLMs reveals an empirical law (the
densing law)that the capacity density of LLMs grows exponentially over time.
More specifically, using some widely used benchmarks for evaluation, the
capacity density of LLMs doubles approximately every three months. The law
provides new perspectives to guide future LLM development, emphasizing the
importance of improving capacity density to achieve optimal results with
minimal computational overhead.Summary
AI-Generated Summary