Универсальные законы масштабирования для сжатых представлений
Unified Scaling Laws for Compressed Representations
June 2, 2025
Авторы: Andrei Panferov, Alexandra Volkova, Ionut-Vlad Modoranu, Vage Egiazarian, Mher Safaryan, Dan Alistarh
cs.AI
Аннотация
Законы масштабирования сыграли ключевую роль в последних достижениях в области машинного обучения, обеспечивая предсказуемое увеличение производительности моделей в зависимости от их размера, объема вычислений и объема данных. Одновременно рост вычислительных затрат на искусственный интеллект стимулировал развитие методов сжатия моделей, таких как квантование и разрежение, которые призваны смягчить высокие вычислительные требования, связанные с обучением и выводом на крупных масштабах. В данной статье исследуется взаимодействие между законами масштабирования и форматами сжатия, а также рассматривается возможность создания универсальной структуры масштабирования, способной точно предсказывать производительность моделей при обучении на различных сжатых представлениях, таких как разреженные, скалярно-квантованные, разреженно-квантованные или даже векторно-квантованные форматы. Основные вклады работы включают проверку общей формулировки закона масштабирования и демонстрацию её применимости как для отдельных, так и для комбинированных типов сжатия. На основе этого главным результатом является теоретическое и эмпирическое доказательство существования простой метрики "емкости", основанной на способности представления аппроксимировать случайные гауссовские данные, которая может надежно предсказывать эффективность параметров для множества сжатых представлений. С практической точки зрения, мы расширяем нашу формулировку для прямого сравнения потенциала точности различных сжатых форматов и для разработки более эффективных алгоритмов обучения на разреженно-квантованных форматах.
English
Scaling laws have shaped recent advances in machine learning by enabling
predictable scaling of model performance based on model size, computation, and
data volume. Concurrently, the rise in computational cost for AI has motivated
model compression techniques, notably quantization and sparsification, which
have emerged to mitigate the steep computational demands associated with
large-scale training and inference. This paper investigates the interplay
between scaling laws and compression formats, exploring whether a unified
scaling framework can accurately predict model performance when training occurs
over various compressed representations, such as sparse, scalar-quantized,
sparse-quantized or even vector-quantized formats. Our key contributions
include validating a general scaling law formulation and showing that it is
applicable both individually but also composably across compression types.
Based on this, our main finding is demonstrating both theoretically and
empirically that there exists a simple "capacity" metric -- based on the
representation's ability to fit random Gaussian data -- which can robustly
predict parameter efficiency across multiple compressed representations. On the
practical side, we extend our formulation to directly compare the accuracy
potential of different compressed formats, and to derive better algorithms for
training over sparse-quantized formats.