Leis de Escalamento Unificadas para Representações Comprimidas
Unified Scaling Laws for Compressed Representations
June 2, 2025
Autores: Andrei Panferov, Alexandra Volkova, Ionut-Vlad Modoranu, Vage Egiazarian, Mher Safaryan, Dan Alistarh
cs.AI
Resumo
As leis de escala têm moldado os avanços recentes em aprendizado de máquina ao permitir a escalabilidade previsível do desempenho do modelo com base no tamanho do modelo, na computação e no volume de dados. Paralelamente, o aumento no custo computacional para IA tem motivado técnicas de compressão de modelos, notadamente quantização e esparsificação, que surgiram para mitigar as demandas computacionais significativas associadas ao treinamento e inferência em grande escala. Este artigo investiga a interação entre as leis de escala e os formatos de compressão, explorando se uma estrutura de escala unificada pode prever com precisão o desempenho do modelo quando o treinamento ocorre sobre várias representações comprimidas, como formatos esparsos, quantizados escalarmente, esparsos-quantizados ou até mesmo quantizados vetorialmente. Nossas principais contribuições incluem validar uma formulação geral da lei de escala e mostrar que ela é aplicável tanto individualmente quanto de forma combinada entre tipos de compressão. Com base nisso, nossa principal descoberta é demonstrar tanto teoricamente quanto empiricamente que existe uma métrica simples de "capacidade" — baseada na capacidade da representação de ajustar dados gaussianos aleatórios — que pode prever robustamente a eficiência de parâmetros em múltiplas representações comprimidas. No lado prático, estendemos nossa formulação para comparar diretamente o potencial de precisão de diferentes formatos comprimidos e para derivar algoritmos melhores para treinamento em formatos esparsos-quantizados.
English
Scaling laws have shaped recent advances in machine learning by enabling
predictable scaling of model performance based on model size, computation, and
data volume. Concurrently, the rise in computational cost for AI has motivated
model compression techniques, notably quantization and sparsification, which
have emerged to mitigate the steep computational demands associated with
large-scale training and inference. This paper investigates the interplay
between scaling laws and compression formats, exploring whether a unified
scaling framework can accurately predict model performance when training occurs
over various compressed representations, such as sparse, scalar-quantized,
sparse-quantized or even vector-quantized formats. Our key contributions
include validating a general scaling law formulation and showing that it is
applicable both individually but also composably across compression types.
Based on this, our main finding is demonstrating both theoretically and
empirically that there exists a simple "capacity" metric -- based on the
representation's ability to fit random Gaussian data -- which can robustly
predict parameter efficiency across multiple compressed representations. On the
practical side, we extend our formulation to directly compare the accuracy
potential of different compressed formats, and to derive better algorithms for
training over sparse-quantized formats.