Verenigde schaalwetten voor gecomprimeerde representaties

Samenvatting

Schaalwetten hebben recente vooruitgang in machine learning vormgegeven door het voorspelbaar schalen van modelprestaties mogelijk te maken op basis van modelgrootte, rekenkracht en datavolume. Tegelijkertijd heeft de stijging van de rekenkosten voor AI geleid tot modelcompressietechnieken, met name kwantisatie en versparsing, die zijn ontstaan om de hoge rekenkundige eisen die gepaard gaan met grootschalige training en inferentie te verminderen. Dit artikel onderzoekt de wisselwerking tussen schaalwetten en compressieformaten, waarbij wordt verkend of een uniform schaalraamwerk nauwkeurig de modelprestaties kan voorspellen wanneer training plaatsvindt over verschillende gecomprimeerde representaties, zoals verspreide, scalaire gekwantiseerde, verspreid-gekwantiseerde of zelfs vector-gekwantiseerde formaten. Onze belangrijkste bijdragen omvatten het valideren van een algemene formulering van schaalwetten en het aantonen dat deze zowel individueel als combineerbaar toepasbaar is over verschillende compressietypen. Op basis hiervan is onze belangrijkste bevinding dat we zowel theoretisch als empirisch aantonen dat er een eenvoudige "capaciteits"metriek bestaat – gebaseerd op het vermogen van de representatie om willekeurige Gaussische data te passen – die robuust de parameter-efficiëntie over meerdere gecomprimeerde representaties kan voorspellen. Praktisch gezien breiden we onze formulering uit om de nauwkeurigheidsmogelijkheden van verschillende gecomprimeerde formaten direct te vergelijken en om betere algoritmen af te leiden voor training over verspreid-gekwantiseerde formaten.

English

Scaling laws have shaped recent advances in machine learning by enabling predictable scaling of model performance based on model size, computation, and data volume. Concurrently, the rise in computational cost for AI has motivated model compression techniques, notably quantization and sparsification, which have emerged to mitigate the steep computational demands associated with large-scale training and inference. This paper investigates the interplay between scaling laws and compression formats, exploring whether a unified scaling framework can accurately predict model performance when training occurs over various compressed representations, such as sparse, scalar-quantized, sparse-quantized or even vector-quantized formats. Our key contributions include validating a general scaling law formulation and showing that it is applicable both individually but also composably across compression types. Based on this, our main finding is demonstrating both theoretically and empirically that there exists a simple "capacity" metric -- based on the representation's ability to fit random Gaussian data -- which can robustly predict parameter efficiency across multiple compressed representations. On the practical side, we extend our formulation to directly compare the accuracy potential of different compressed formats, and to derive better algorithms for training over sparse-quantized formats.

Verenigde schaalwetten voor gecomprimeerde representaties

Unified Scaling Laws for Compressed Representations

Samenvatting

Support