COMPOT : Orthogonalisation par Procrustes Matricielle Optimisée par Calibration pour la Compression de Transformers

papers.abstract

La compression post-entraînement des modèles Transformer repose généralement sur la décomposition en valeurs singulières (SVD) tronquée. Cependant, l'imposition d'un unique sous-espace partagé peut dégrader la précision, même pour une compression modérée. L'apprentissage de dictionnaire creux offre une représentation plus flexible par union de sous-espaces, mais les approches existantes souffrent souvent de mises à jour itératives du dictionnaire et des coefficients. Nous proposons COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), un cadre de compression sans entraînement qui utilise un petit jeu de données d'étalonnage pour estimer une factorisation creuse des poids. COMPOT emploie des dictionnaires orthogonaux qui permettent des mises à jour de Procrustes en forme fermée pour le dictionnaire et un codage creux analytique en une seule étape pour les coefficients, éliminant ainsi l'optimisation itérative. Pour gérer l'hétérogénéité de la sensibilité des couches sous un budget de compression global, COMPOT introduit en outre une stratégie d'allocation dynamique en une passe qui redistue de manière adaptative les taux de compression par couche. Des expériences approfondies sur diverses architectures et tâches montrent que COMPOT offre constamment un compromis qualité-compression supérieur à des bases de référence solides de faible rang et creuses, tout en restant entièrement compatible avec la quantification post-entraînement pour une compression extrême. Le code est disponible {ici} : https://github.com/mts-ai/COMPOT.

English

Post-training compression of Transformer models commonly relies on truncated singular value decomposition (SVD). However, enforcing a single shared subspace can degrade accuracy even at moderate compression. Sparse dictionary learning provides a more flexible union-of-subspaces representation, but existing approaches often suffer from iterative dictionary and coefficient updates. We propose COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), a training-free compression framework that uses a small calibration dataset to estimate a sparse weight factorization. COMPOT employs orthogonal dictionaries that enable closed-form Procrustes updates for the dictionary and analytical single-step sparse coding for the coefficients, eliminating iterative optimization. To handle heterogeneous layer sensitivity under a global compression budget, COMPOT further introduces a one-shot dynamic allocation strategy that adaptively redistributes layer-wise compression rates. Extensive experiments across diverse architectures and tasks show that COMPOT consistently delivers a superior quality-compression trade-off over strong low-rank and sparse baselines, while remaining fully compatible with post-training quantization for extreme compression. Code is available https://github.com/mts-ai/COMPOT{here}.

COMPOT : Orthogonalisation par Procrustes Matricielle Optimisée par Calibration pour la Compression de Transformers

COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression

papers.abstract

Support