Leyes de Escalado Unificadas para Representaciones Comprimidas
Unified Scaling Laws for Compressed Representations
June 2, 2025
Autores: Andrei Panferov, Alexandra Volkova, Ionut-Vlad Modoranu, Vage Egiazarian, Mher Safaryan, Dan Alistarh
cs.AI
Resumen
Las leyes de escalamiento han moldeado los avances recientes en el aprendizaje automático al permitir un escalamiento predecible del rendimiento de los modelos en función del tamaño del modelo, el cómputo y el volumen de datos. Simultáneamente, el aumento en el costo computacional de la IA ha motivado técnicas de compresión de modelos, notablemente la cuantización y la esparsificación, que han surgido para mitigar las altas demandas computacionales asociadas con el entrenamiento e inferencia a gran escala. Este artículo investiga la interacción entre las leyes de escalamiento y los formatos de compresión, explorando si un marco de escalamiento unificado puede predecir con precisión el rendimiento del modelo cuando el entrenamiento se realiza sobre diversas representaciones comprimidas, como formatos esparsos, cuantizados escalarmente, esparso-cuantizados o incluso cuantizados vectorialmente. Nuestras contribuciones clave incluyen validar una formulación general de la ley de escalamiento y demostrar que es aplicable tanto individualmente como de manera compositiva entre tipos de compresión. Con base en esto, nuestro hallazgo principal es demostrar tanto teórica como empíricamente que existe una métrica simple de "capacidad" —basada en la capacidad de la representación para ajustar datos gaussianos aleatorios— que puede predecir de manera robusta la eficiencia de los parámetros en múltiples representaciones comprimidas. En el aspecto práctico, extendemos nuestra formulación para comparar directamente el potencial de precisión de diferentes formatos comprimidos y para derivar mejores algoritmos para el entrenamiento sobre formatos esparso-cuantizados.
English
Scaling laws have shaped recent advances in machine learning by enabling
predictable scaling of model performance based on model size, computation, and
data volume. Concurrently, the rise in computational cost for AI has motivated
model compression techniques, notably quantization and sparsification, which
have emerged to mitigate the steep computational demands associated with
large-scale training and inference. This paper investigates the interplay
between scaling laws and compression formats, exploring whether a unified
scaling framework can accurately predict model performance when training occurs
over various compressed representations, such as sparse, scalar-quantized,
sparse-quantized or even vector-quantized formats. Our key contributions
include validating a general scaling law formulation and showing that it is
applicable both individually but also composably across compression types.
Based on this, our main finding is demonstrating both theoretically and
empirically that there exists a simple "capacity" metric -- based on the
representation's ability to fit random Gaussian data -- which can robustly
predict parameter efficiency across multiple compressed representations. On the
practical side, we extend our formulation to directly compare the accuracy
potential of different compressed formats, and to derive better algorithms for
training over sparse-quantized formats.