ChatPaper.aiChatPaper

COMPOT: Kalibrierungsoptimierte Matrix-Procrustes-Orthogonalisierung zur Komprimierung von Transformer-Modellen

COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression

February 16, 2026
papers.authors: Denis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Ammar Ali, Baher Mohammad, Stamatios Lefkimmiatis
cs.AI

papers.abstract

Die Nachtrainingskompression von Transformer-Modellen basiert häufig auf der truncated singular value decomposition (SVD, truncated-SVD). Die Erzwingung eines einzigen gemeinsamen Unterraums kann jedoch bereits bei moderater Kompression die Genauigkeit beeinträchtigen. Sparse Dictionary Learning bietet eine flexiblere Union-of-Subspaces-Darstellung, bestehende Ansätze leiden jedoch oft unter iterativen Aktualisierungen von Dictionary und Koeffizienten. Wir schlagen COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers) vor, ein trainingsfreies Kompressionsframework, das einen kleinen Kalibrierungsdatensatz zur Schätzung einer稀疏en Gewichtsfaktorisierung nutzt. COMPOT verwendet orthogonale Dictionaries, die geschlossene Procrustes-Updates für das Dictionary und analytisches Single-Step-Sparse-Coding für die Koeffizienten ermöglichen, wodurch iterative Optimierung entfällt. Um der heterogenen Schichtempfindlichkeit unter einem globalen Kompressionsbudget gerecht zu werden, führt COMPOT zudem eine One-Shot-Dynamische-Allokationsstrategie ein, die schichtspezifische Kompressionsraten adaptiv umverteilt. Umfangreiche Experimente mit verschiedenen Architekturen und Aufgaben zeigen, dass COMPOT durchgängig eine überlegene Qualitäts-Kompressions-Abwägung gegenüber starken Low-Rank- und Sparse-Baselines erreicht und dabei vollständig kompatibel mit der Nachtrainingsquantisierung für extreme Kompression bleibt. Der Code ist verfügbar unter https://github.com/mts-ai/COMPOT.
English
Post-training compression of Transformer models commonly relies on truncated singular value decomposition (SVD). However, enforcing a single shared subspace can degrade accuracy even at moderate compression. Sparse dictionary learning provides a more flexible union-of-subspaces representation, but existing approaches often suffer from iterative dictionary and coefficient updates. We propose COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), a training-free compression framework that uses a small calibration dataset to estimate a sparse weight factorization. COMPOT employs orthogonal dictionaries that enable closed-form Procrustes updates for the dictionary and analytical single-step sparse coding for the coefficients, eliminating iterative optimization. To handle heterogeneous layer sensitivity under a global compression budget, COMPOT further introduces a one-shot dynamic allocation strategy that adaptively redistributes layer-wise compression rates. Extensive experiments across diverse architectures and tasks show that COMPOT consistently delivers a superior quality-compression trade-off over strong low-rank and sparse baselines, while remaining fully compatible with post-training quantization for extreme compression. Code is available https://github.com/mts-ai/COMPOT{here}.
PDF51February 19, 2026