Lei da Densificação de LLMs
Densing Law of LLMs
December 5, 2024
Autores: Chaojun Xiao, Jie Cai, Weilin Zhao, Guoyang Zeng, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) surgiram como um marco na inteligência artificial, e seu desempenho pode melhorar à medida que o tamanho do modelo aumenta. No entanto, essa escalabilidade traz grandes desafios para a eficiência de treinamento e inferência, especialmente ao implantar LLMs em ambientes com recursos limitados, e a tendência de escalabilidade está se tornando cada vez mais insustentável. Este artigo introduz o conceito de "densidade de capacidade" como uma nova métrica para avaliar a qualidade dos LLMs em diferentes escalas e descreve a tendência dos LLMs em termos de eficácia e eficiência. Para calcular a densidade de capacidade de um determinado LLM alvo, primeiro introduzimos um conjunto de modelos de referência e desenvolvemos uma lei de escalabilidade para prever o desempenho futuro desses modelos de referência com base em seus tamanhos de parâmetros. Em seguida, definimos o tamanho efetivo de parâmetros do LLM alvo como o tamanho de parâmetros necessário por um modelo de referência para alcançar um desempenho equivalente, e formalizamos a densidade de capacidade como a razão entre o tamanho efetivo de parâmetros e o tamanho real de parâmetros do LLM alvo. A densidade de capacidade fornece um framework unificado para avaliar tanto a eficácia quanto a eficiência do modelo. Nossa análise adicional dos recentes LLMs base de código aberto revela uma lei empírica (a lei de densificação) em que a densidade de capacidade dos LLMs cresce exponencialmente ao longo do tempo. Mais especificamente, utilizando alguns benchmarks amplamente utilizados para avaliação, a densidade de capacidade dos LLMs dobra aproximadamente a cada três meses. A lei fornece novas perspectivas para orientar o desenvolvimento futuro de LLMs, enfatizando a importância de melhorar a densidade de capacidade para alcançar resultados ótimos com o mínimo de sobrecarga computacional.
English
Large Language Models (LLMs) have emerged as a milestone in artificial
intelligence, and their performance can improve as the model size increases.
However, this scaling brings great challenges to training and inference
efficiency, particularly for deploying LLMs in resource-constrained
environments, and the scaling trend is becoming increasingly unsustainable.
This paper introduces the concept of ``capacity density'' as a new
metric to evaluate the quality of the LLMs across different scales and
describes the trend of LLMs in terms of both effectiveness and efficiency. To
calculate the capacity density of a given target LLM, we first introduce a set
of reference models and develop a scaling law to predict the downstream
performance of these reference models based on their parameter sizes. We then
define the effective parameter size of the target LLM as the parameter
size required by a reference model to achieve equivalent performance, and
formalize the capacity density as the ratio of the effective parameter size to
the actual parameter size of the target LLM. Capacity density provides a
unified framework for assessing both model effectiveness and efficiency. Our
further analysis of recent open-source base LLMs reveals an empirical law (the
densing law)that the capacity density of LLMs grows exponentially over time.
More specifically, using some widely used benchmarks for evaluation, the
capacity density of LLMs doubles approximately every three months. The law
provides new perspectives to guide future LLM development, emphasizing the
importance of improving capacity density to achieve optimal results with
minimal computational overhead.Summary
AI-Generated Summary