SigmaScale : Compression de LLM par décomposition de rang faible basée sur SVD et matrices d'échelle apprises

Résumé

Nous présentons SigmaScale, une méthode d’apprentissage de matrices d’échelle auxiliaires S destinées à faciliter la compression de modèles de langage de grande taille (LLM) par décomposition en valeurs singulières (SVD) tronquée. Plutôt que de dériver analytiquement les matrices d’échelle, SigmaScale optimise deux ensembles de vecteurs définissant des transformations d’échelle diagonales par lignes et par colonnes, sous une perte de compression sensible aux activations. Nous montrons que l’échelle apprise réduit le rang intrinsèque effectif des matrices de poids, comme l’indique la diminution de l’entropie du rang effectif, et que cette réduction est fortement corrélée à la perte de compression. Des expériences sur Llama 3.1 8B Instruct et Qwen3-8B montrent que SigmaScale rivalise avec les méthodes de compression par SVD de pointe les plus proches, tant en termes de perplexité que de performances en contexte zero-shot. En utilisant des transformations apprises et conscientes des activations, SigmaScale explore une voie plus flexible vers la compression de type faible rang des LLM, en s’adaptant à la structure propre à chaque poids du modèle. L’avantage observé sur certaines tâches fait de notre approche une option valable pour les applications nécessitant un coût de calcul d’inférence réduit pour les LLM.

English

We present SigmaScale, a method for learning auxiliary scaling matrices S to aid truncated Singular Value Decomposition (SVD) based Large Language Model (LLM) compression. Instead of deriving scaling matrices analytically, SigmaScale optimizes two sets of vectors that define diagonal row and column scaling transformations under an activation-aware compression loss. We show that learned scaling lowers the effective intrinsic rank of weight matrices, as reflected by reductions in effective-rank entropy, and that this reduction is strongly correlated with compression loss. Experiments on Llama 3.1 8B Instruct and Qwen3-8B show that SigmaScale is competitive with closely related state-of-the-art SVD-based compression methods across perplexity and zero-shot benchmarks. By using learned activation-aware transformations, SigmaScale explores a more flexible route to low-rank LLM compression by adapting to the structure of individual model weights. The advantage observed in specific tasks makes our approach a valid option for applications requiring a reduced LLM-inference computing cost.