COMPOT: Калибровочно-оптимизированная ортогонализация по Прокрусту для сжатия трансформаторов
COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression
February 16, 2026
Авторы: Denis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Ammar Ali, Baher Mohammad, Stamatios Lefkimmiatis
cs.AI
Аннотация
Посттренировочное сжатие моделей-трансформеров обычно основывается на усеченном сингулярном разложении (SVD). Однако принудительное задание единого общего подпространства может ухудшить точность даже при умеренном сжатии. Разреженное словарное обучение обеспечивает более гибкое представление в виде объединения подпространств, но существующие подходы часто страдают от итеративных обновлений словаря и коэффициентов. Мы предлагаем COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers) — свободный от дообучения фреймворк для сжатия, который использует небольшой калибровочный набор данных для оценки разреженной факторизации весов. COMPOT использует ортогональные словари, что позволяет применять замкнутые обновления Проскурякова для словаря и аналитическое одношаговое разреженное кодирование для коэффициентов, исключая итеративную оптимизацию. Для учета неоднородной чувствительности слоев при глобальном бюджете сжатия COMPOT дополнительно вводит одношаговую стратегию динамического распределения, которая адаптивно перераспределяет уровни сжатия по слоям. Многочисленные эксперименты на различных архитектурах и задачах показывают, что COMPOT стабильно обеспечивает превосходный компромисс между качеством и сжатием по сравнению с сильными низкоранговыми и разреженными базовыми методами, оставаясь при этом полностью совместимым с посттренировочной квантизацией для экстремального сжатия. Код доступен {здесь}(https://github.com/mts-ai/COMPOT).
English
Post-training compression of Transformer models commonly relies on truncated singular value decomposition (SVD). However, enforcing a single shared subspace can degrade accuracy even at moderate compression. Sparse dictionary learning provides a more flexible union-of-subspaces representation, but existing approaches often suffer from iterative dictionary and coefficient updates. We propose COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), a training-free compression framework that uses a small calibration dataset to estimate a sparse weight factorization. COMPOT employs orthogonal dictionaries that enable closed-form Procrustes updates for the dictionary and analytical single-step sparse coding for the coefficients, eliminating iterative optimization. To handle heterogeneous layer sensitivity under a global compression budget, COMPOT further introduces a one-shot dynamic allocation strategy that adaptively redistributes layer-wise compression rates. Extensive experiments across diverse architectures and tasks show that COMPOT consistently delivers a superior quality-compression trade-off over strong low-rank and sparse baselines, while remaining fully compatible with post-training quantization for extreme compression. Code is available https://github.com/mts-ai/COMPOT{here}.