SigmaScale: Compressão de LLM com Decomposição de Baixo Posto baseada em SVD e Matrizes de Escalonamento Aprendidas

Resumo

Apresentamos o SigmaScale, um método para aprender matrizes de escala auxiliares S que auxiliam a compressão de Modelos de Linguagem de Grande Porte (LLMs) baseada na Decomposição em Valores Singulares (SVD) truncada. Em vez de derivar matrizes de escala analiticamente, o SigmaScale otimiza dois conjuntos de vetores que definem transformações de escala diagonais por linhas e por colunas sob uma perda de compressão consciente da ativação. Mostramos que a escala aprendida reduz o rank intrínseco efetivo das matrizes de peso, conforme refletido por reduções na entropia do rank efetivo, e que essa redução está fortemente correlacionada com a perda de compressão. Experimentos no Llama 3.1 8B Instruct e no Qwen3-8B mostram que o SigmaScale é competitivo com métodos de compressão baseados em SVD estreitamente relacionados, tanto em perplexidade quanto em benchmarks zero-shot. Ao usar transformações conscientes da ativação aprendidas, o SigmaScale explora uma rota mais flexível para a compressão de LLMs de baixo rank, adaptando-se à estrutura dos pesos individuais do modelo. A vantagem observada em tarefas específicas torna nossa abordagem uma opção válida para aplicações que exigem um custo computacional reduzido na inferência de LLMs.

English

We present SigmaScale, a method for learning auxiliary scaling matrices S to aid truncated Singular Value Decomposition (SVD) based Large Language Model (LLM) compression. Instead of deriving scaling matrices analytically, SigmaScale optimizes two sets of vectors that define diagonal row and column scaling transformations under an activation-aware compression loss. We show that learned scaling lowers the effective intrinsic rank of weight matrices, as reflected by reductions in effective-rank entropy, and that this reduction is strongly correlated with compression loss. Experiments on Llama 3.1 8B Instruct and Qwen3-8B show that SigmaScale is competitive with closely related state-of-the-art SVD-based compression methods across perplexity and zero-shot benchmarks. By using learned activation-aware transformations, SigmaScale explores a more flexible route to low-rank LLM compression by adapting to the structure of individual model weights. The advantage observed in specific tasks makes our approach a valid option for applications requiring a reduced LLM-inference computing cost.