SigmaScale: LLM-Kompression mit SVD-basierter Niedrigrangzerlegung und gelernten Skalierungsmatrizen

Zusammenfassung

Wir stellen SigmaScale vor, eine Methode zum Erlernen von Hilfsskalierungsmatrizen S zur Unterstützung der auf trunkierter Singulärwertzerlegung (SVD) basierenden Kompression großer Sprachmodelle (Large Language Models, LLMs). Anstatt Skalierungsmatrizen analytisch herzuleiten, optimiert SigmaScale zwei Vektorsätze, die diagonale Zeilen- und Spaltenskalierungstransformationen unter einem aktivierungsbewussten Kompressionsverlust definieren. Wir zeigen, dass erlernte Skalierung den effektiven intrinsischen Rang von Gewichtsmatrizen senkt, was sich in einer Reduzierung der Effektiv-Rang-Entropie widerspiegelt, und dass diese Reduzierung stark mit dem Kompressionsverlust korreliert. Experimente mit Llama 3.1 8B Instruct und Qwen3-8B zeigen, dass SigmaScale mit eng verwandten modernen SVD-basierten Kompressionsmethoden bei Perplexitäts- und Zero-Shot-Benchmarks konkurrieren kann. Durch die Verwendung erlernter aktivierungsbewusster Transformationen erkundet SigmaScale einen flexibleren Weg zur Niedrigrang-LLM-Kompression, indem es sich an die Struktur einzelner Modellgewichte anpasst. Der bei bestimmten Aufgaben beobachtete Vorteil macht unseren Ansatz zu einer validen Option für Anwendungen, die reduzierte LLM-Inferenzkosten erfordern.

English

We present SigmaScale, a method for learning auxiliary scaling matrices S to aid truncated Singular Value Decomposition (SVD) based Large Language Model (LLM) compression. Instead of deriving scaling matrices analytically, SigmaScale optimizes two sets of vectors that define diagonal row and column scaling transformations under an activation-aware compression loss. We show that learned scaling lowers the effective intrinsic rank of weight matrices, as reflected by reductions in effective-rank entropy, and that this reduction is strongly correlated with compression loss. Experiments on Llama 3.1 8B Instruct and Qwen3-8B show that SigmaScale is competitive with closely related state-of-the-art SVD-based compression methods across perplexity and zero-shot benchmarks. By using learned activation-aware transformations, SigmaScale explores a more flexible route to low-rank LLM compression by adapting to the structure of individual model weights. The advantage observed in specific tasks makes our approach a valid option for applications requiring a reduced LLM-inference computing cost.