Leyes de Escalado para Modelos Fundacionales Escasamente Conectados
Scaling Laws for Sparsely-Connected Foundation Models
September 15, 2023
Autores: Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci
cs.AI
Resumen
Exploramos el impacto de la dispersión de parámetros en el comportamiento de escalado de Transformers entrenados en conjuntos de datos masivos (es decir, "modelos fundacionales"), tanto en dominios de visión como de lenguaje. En este contexto, identificamos la primera ley de escalado que describe la relación entre la dispersión de pesos, el número de parámetros no nulos y la cantidad de datos de entrenamiento, la cual validamos empíricamente a través de escalas de modelos y datos; en ViT/JFT-4B y T5/C4. Estos resultados nos permiten caracterizar la "dispersión óptima", el nivel de dispersión que ofrece el mejor rendimiento para un tamaño efectivo de modelo y un presupuesto de entrenamiento dados. Para un número fijo de parámetros no nulos, identificamos que la dispersión óptima aumenta con la cantidad de datos utilizados para el entrenamiento. También extendemos nuestro estudio a diferentes estructuras de dispersión (como el patrón n:m compatible con hardware) y estrategias (como comenzar desde un modelo denso preentrenado). Nuestros hallazgos arrojan luz sobre el poder y las limitaciones de la dispersión de pesos en diversos entornos de parámetros y computacionales, ofreciendo tanto una comprensión teórica como implicaciones prácticas para aprovechar la dispersión hacia mejoras en la eficiencia computacional.
English
We explore the impact of parameter sparsity on the scaling behavior of
Transformers trained on massive datasets (i.e., "foundation models"), in both
vision and language domains. In this setting, we identify the first scaling law
describing the relationship between weight sparsity, number of non-zero
parameters, and amount of training data, which we validate empirically across
model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to
characterize the "optimal sparsity", the sparsity level which yields the best
performance for a given effective model size and training budget. For a fixed
number of non-zero parameters, we identify that the optimal sparsity increases
with the amount of data used for training. We also extend our study to
different sparsity structures (such as the hardware-friendly n:m pattern) and
strategies (such as starting from a pretrained dense model). Our findings shed
light on the power and limitations of weight sparsity across various parameter
and computational settings, offering both theoretical understanding and
practical implications for leveraging sparsity towards computational efficiency
improvements.