SigmaScale: LLM-compressie met SVD-gebaseerde lage-rang decompositie en geleerde schalingsmatrices

Samenvatting

Wij presenteren SigmaScale, een methode voor het leren van hulp-schalingsmatrices S ter ondersteuning van compressie van grote taalmodellen (LLM's) op basis van getrunceerde singulierewaardedecompositie (SVD). In plaats van schalingsmatrices analytisch af te leiden, optimaliseert SigmaScale twee sets vectoren die diagonale rij- en kolomschalings-transformaties definiëren onder een activatiebewuste compressieverliesfunctie. Wij tonen aan dat geleerd schalen de effectieve intrinsieke rang van gewichtsmatrices verlaagt, zoals blijkt uit reducties in effectieve-rangentropie, en dat deze reductie sterk gecorreleerd is met compressieverlies. Experimenten op Llama 3.1 8B Instruct en Qwen3-8B laten zien dat SigmaScale concurrerend is met nauw verwante state-of-the-art SVD-gebaseerde compressiemethoden op het gebied van perplexiteit en zero-shot benchmarks. Door gebruik te maken van geleerde activatiebewuste transformaties verkent SigmaScale een flexibelere route naar laagrangige LLM-compressie door zich aan te passen aan de structuur van individuele modelgewichten. Het voordeel dat wordt waargenomen bij specifieke taken maakt onze benadering een valide optie voor toepassingen die een verminderde rekenkost voor LLM-inferentie vereisen.

English

We present SigmaScale, a method for learning auxiliary scaling matrices S to aid truncated Singular Value Decomposition (SVD) based Large Language Model (LLM) compression. Instead of deriving scaling matrices analytically, SigmaScale optimizes two sets of vectors that define diagonal row and column scaling transformations under an activation-aware compression loss. We show that learned scaling lowers the effective intrinsic rank of weight matrices, as reflected by reductions in effective-rank entropy, and that this reduction is strongly correlated with compression loss. Experiments on Llama 3.1 8B Instruct and Qwen3-8B show that SigmaScale is competitive with closely related state-of-the-art SVD-based compression methods across perplexity and zero-shot benchmarks. By using learned activation-aware transformations, SigmaScale explores a more flexible route to low-rank LLM compression by adapting to the structure of individual model weights. The advantage observed in specific tasks makes our approach a valid option for applications requiring a reduced LLM-inference computing cost.