압축된 표현에 대한 통합 스케일링 법칙
Unified Scaling Laws for Compressed Representations
June 2, 2025
저자: Andrei Panferov, Alexandra Volkova, Ionut-Vlad Modoranu, Vage Egiazarian, Mher Safaryan, Dan Alistarh
cs.AI
초록
스케일링 법칙은 모델 크기, 계산량, 데이터 규모에 기반하여 모델 성능을 예측 가능하게 스케일링함으로써 최근 머신러닝의 발전을 이끌어왔다. 동시에, AI의 계산 비용 증가는 대규모 학습 및 추론과 관련된 높은 계산 요구를 완화하기 위해 양자화(quantization) 및 희소화(sparsification)와 같은 모델 압축 기술의 등장을 촉진하였다. 본 논문은 스케일링 법칙과 압축 형식 간의 상호작용을 탐구하며, 희소화, 스칼라 양자화, 희소 양자화, 심지어 벡터 양자화와 같은 다양한 압축 표현을 통해 학습이 이루어질 때 통합된 스케일링 프레임워크가 모델 성능을 정확히 예측할 수 있는지 조사한다. 우리의 주요 기여는 일반적인 스케일링 법칙 공식을 검증하고, 이 공식이 개별적으로뿐만 아니라 다양한 압축 유형에 걸쳐 조합적으로 적용 가능함을 보여주는 것이다. 이를 바탕으로, 우리는 이론적 및 실증적으로 단순한 "용량(capacity)" 지표가 존재하며, 이 지표가 무작위 가우시안 데이터를 적합시키는 표현의 능력에 기반하여 여러 압축 표현 간의 파라미터 효율성을 강력하게 예측할 수 있음을 입증한다. 실용적인 측면에서, 우리는 이 공식을 확장하여 다양한 압축 형식의 정확도 잠재력을 직접 비교하고, 희소 양자화 형식에 대한 더 나은 학습 알고리즘을 도출한다.
English
Scaling laws have shaped recent advances in machine learning by enabling
predictable scaling of model performance based on model size, computation, and
data volume. Concurrently, the rise in computational cost for AI has motivated
model compression techniques, notably quantization and sparsification, which
have emerged to mitigate the steep computational demands associated with
large-scale training and inference. This paper investigates the interplay
between scaling laws and compression formats, exploring whether a unified
scaling framework can accurately predict model performance when training occurs
over various compressed representations, such as sparse, scalar-quantized,
sparse-quantized or even vector-quantized formats. Our key contributions
include validating a general scaling law formulation and showing that it is
applicable both individually but also composably across compression types.
Based on this, our main finding is demonstrating both theoretically and
empirically that there exists a simple "capacity" metric -- based on the
representation's ability to fit random Gaussian data -- which can robustly
predict parameter efficiency across multiple compressed representations. On the
practical side, we extend our formulation to directly compare the accuracy
potential of different compressed formats, and to derive better algorithms for
training over sparse-quantized formats.