COMPOT: Ortogonalização de Procrustes Matricial Otimizada por Calibração para Compressão de Transformers

Resumo

A compressão pós-treinamento de modelos Transformer baseia-se comumente na decomposição de valores singulares truncada (SVD). No entanto, impor um único subespaço partilhado pode degradar a precisão mesmo em compressões moderadas. A aprendizagem de dicionários esparsos fornece uma representação mais flexível de união de subespaços, mas as abordagens existentes sofrem frequentemente de atualizações iterativas de dicionários e coeficientes. Propomos o COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), uma estrutura de compressão sem treinamento que utiliza um pequeno conjunto de dados de calibração para estimar uma fatorização esparsa dos pesos. O COMPOT emprega dicionários ortogonais que permitem atualizações de Procrustes de forma fechada para o dicionário e uma codificação esparsa analítica em passo único para os coeficientes, eliminando a otimização iterativa. Para lidar com a sensibilidade heterogénea das camadas sob um orçamento global de compressão, o COMPOT introduz ainda uma estratégia de alocação dinâmica única que redistribui adaptativamente as taxas de compressão por camada. Experiências extensas em diversas arquiteturas e tarefas mostram que o COMPOT oferece consistentemente um compromisso qualidade-compressão superior em comparação com fortes baselines de baixo posto e esparsas, mantendo-se totalmente compatível com a quantização pós-treinamento para compressão extrema. O código está disponível {aqui}(https://github.com/mts-ai/COMPOT).

English

Post-training compression of Transformer models commonly relies on truncated singular value decomposition (SVD). However, enforcing a single shared subspace can degrade accuracy even at moderate compression. Sparse dictionary learning provides a more flexible union-of-subspaces representation, but existing approaches often suffer from iterative dictionary and coefficient updates. We propose COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), a training-free compression framework that uses a small calibration dataset to estimate a sparse weight factorization. COMPOT employs orthogonal dictionaries that enable closed-form Procrustes updates for the dictionary and analytical single-step sparse coding for the coefficients, eliminating iterative optimization. To handle heterogeneous layer sensitivity under a global compression budget, COMPOT further introduces a one-shot dynamic allocation strategy that adaptively redistributes layer-wise compression rates. Extensive experiments across diverse architectures and tasks show that COMPOT consistently delivers a superior quality-compression trade-off over strong low-rank and sparse baselines, while remaining fully compatible with post-training quantization for extreme compression. Code is available https://github.com/mts-ai/COMPOT{here}.

COMPOT: Ortogonalização de Procrustes Matricial Otimizada por Calibração para Compressão de Transformers

COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression

Resumo

Support