Ley de Densificación de LLMs
Densing Law of LLMs
December 5, 2024
Autores: Chaojun Xiao, Jie Cai, Weilin Zhao, Guoyang Zeng, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han surgido como un hito en la inteligencia artificial, y su rendimiento puede mejorar a medida que aumenta el tamaño del modelo. Sin embargo, este escalado plantea grandes desafíos para la eficiencia de entrenamiento e inferencia, especialmente al implementar LLMs en entornos con recursos limitados, y la tendencia de escalado se está volviendo cada vez más insostenible. Este artículo introduce el concepto de "densidad de capacidad" como una nueva métrica para evaluar la calidad de los LLMs en diferentes escalas y describe la tendencia de los LLMs en términos de efectividad y eficiencia. Para calcular la densidad de capacidad de un LLM objetivo dado, primero presentamos un conjunto de modelos de referencia y desarrollamos una ley de escalado para predecir el rendimiento posterior de estos modelos de referencia en función de sus tamaños de parámetros. Luego definimos el tamaño efectivo de parámetros del LLM objetivo como el tamaño de parámetros requerido por un modelo de referencia para lograr un rendimiento equivalente, y formalizamos la densidad de capacidad como la relación entre el tamaño efectivo de parámetros y el tamaño real de parámetros del LLM objetivo. La densidad de capacidad proporciona un marco unificado para evaluar tanto la efectividad como la eficiencia del modelo. Nuestro análisis adicional de los recientes LLMs base de código abierto revela una ley empírica (la ley de densificación) que la densidad de capacidad de los LLMs crece de forma exponencial con el tiempo. Específicamente, utilizando algunos benchmarks ampliamente utilizados para la evaluación, la densidad de capacidad de los LLMs se duplica aproximadamente cada tres meses. Esta ley proporciona nuevas perspectivas para guiar el desarrollo futuro de LLMs, enfatizando la importancia de mejorar la densidad de capacidad para lograr resultados óptimos con un mínimo gasto computacional.
English
Large Language Models (LLMs) have emerged as a milestone in artificial
intelligence, and their performance can improve as the model size increases.
However, this scaling brings great challenges to training and inference
efficiency, particularly for deploying LLMs in resource-constrained
environments, and the scaling trend is becoming increasingly unsustainable.
This paper introduces the concept of ``capacity density'' as a new
metric to evaluate the quality of the LLMs across different scales and
describes the trend of LLMs in terms of both effectiveness and efficiency. To
calculate the capacity density of a given target LLM, we first introduce a set
of reference models and develop a scaling law to predict the downstream
performance of these reference models based on their parameter sizes. We then
define the effective parameter size of the target LLM as the parameter
size required by a reference model to achieve equivalent performance, and
formalize the capacity density as the ratio of the effective parameter size to
the actual parameter size of the target LLM. Capacity density provides a
unified framework for assessing both model effectiveness and efficiency. Our
further analysis of recent open-source base LLMs reveals an empirical law (the
densing law)that the capacity density of LLMs grows exponentially over time.
More specifically, using some widely used benchmarks for evaluation, the
capacity density of LLMs doubles approximately every three months. The law
provides new perspectives to guide future LLM development, emphasizing the
importance of improving capacity density to achieve optimal results with
minimal computational overhead.Summary
AI-Generated Summary