COMPOT: Ortogonalizzazione di Procrustes Matriciale Ottimizzata per la Calibrazione nella Compressione dei Transformer

Abstract

La compressione post-addestramento dei modelli Transformer si basa comunemente sulla decomposizione ai valori singolari (SVD) troncata. Tuttavia, l'imposizione di un unico sottospazio condiviso può degradare l'accuratezza anche a livelli di compressione moderati. L'apprendimento di dizionari sparsi fornisce una rappresentazione più flessibile basata su unione di sottospazi, ma gli approcci esistenti spesso soffrono di aggiornamenti iterativi del dizionario e dei coefficienti. Proponiamo COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), un framework di compressione senza addestramento che utilizza un piccolo dataset di calibrazione per stimare una fattorizzazione sparsa dei pesi. COMPOT impiega dizionari ortogonali che abilitano aggiornamenti di Procrustes in forma chiusa per il dizionario e una codifica sparsa analitica in un singolo passo per i coefficienti, eliminando l'ottimizzazione iterativa. Per gestire l'eterogenea sensibilità dei layer sotto un budget di compressione globale, COMPOT introduce inoltre una strategia di allocazione dinamica one-shot che ridistribuisce adattivamente i tassi di compressione per layer. Esperimenti estesi su diverse architetture e task dimostrano che COMPOT offre costantemente un miglior compromesso qualità-compressione rispetto a solidi baseline di basso rango e sparsi, rimanendo al contempo completamente compatibile con la quantizzazione post-addestramento per una compressione estrema. Il codice è disponibile {qui}(https://github.com/mts-ai/COMPOT).

English

Post-training compression of Transformer models commonly relies on truncated singular value decomposition (SVD). However, enforcing a single shared subspace can degrade accuracy even at moderate compression. Sparse dictionary learning provides a more flexible union-of-subspaces representation, but existing approaches often suffer from iterative dictionary and coefficient updates. We propose COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), a training-free compression framework that uses a small calibration dataset to estimate a sparse weight factorization. COMPOT employs orthogonal dictionaries that enable closed-form Procrustes updates for the dictionary and analytical single-step sparse coding for the coefficients, eliminating iterative optimization. To handle heterogeneous layer sensitivity under a global compression budget, COMPOT further introduces a one-shot dynamic allocation strategy that adaptively redistributes layer-wise compression rates. Extensive experiments across diverse architectures and tasks show that COMPOT consistently delivers a superior quality-compression trade-off over strong low-rank and sparse baselines, while remaining fully compatible with post-training quantization for extreme compression. Code is available https://github.com/mts-ai/COMPOT{here}.

COMPOT: Ortogonalizzazione di Procrustes Matriciale Ottimizzata per la Calibrazione nella Compressione dei Transformer

COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression

Abstract

Support