ARMOR: Potatura Semi-Strutturata ad Alte Prestazioni tramite Fattorizzazione Matriciale Adattiva
ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization
October 7, 2025
Autori: Lawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) presentano significative sfide di implementazione a causa dei loro enormi requisiti computazionali e di memoria. Sebbene il pruning semi-strutturato, in particolare la sparsità 2:4, offra una via per l'accelerazione hardware pratica, i metodi esistenti spesso comportano un notevole degrado delle prestazioni. Per colmare questa lacuna, introduciamo ARMOR: (Adaptive Representation with Matrix-factORization), un nuovo algoritmo di pruning post-addestramento one-shot. Invece di potare direttamente i pesi, ARMOR fattorizza ogni matrice di pesi in un nucleo sparso 2:4 avvolto da due matrici diagonali a blocchi a basso sovraccarico. Questi involucri fungono da correttori di errore di pre e post-trasformazione efficienti, offrendo una maggiore flessibilità per preservare la qualità del modello rispetto alle tecniche di pruning 2:4 convenzionali. Il nucleo sparso e gli involucri diagonali a blocchi vengono scelti attraverso un algoritmo di discesa coordinata a blocchi che minimizza una perdita proxy a livello di strato. Dimostriamo teoricamente che questa ottimizzazione è garantita per convergere a una soluzione con una perdita proxy inferiore o uguale agli algoritmi di pruning all'avanguardia. Esperimenti sulle famiglie di modelli Llama (Touvron et al., 2023; Dubey et al., 2024) e Qwen (Yang et al., 2025) dimostrano che ARMOR supera costantemente e significativamente i metodi di pruning 2:4 all'avanguardia in un'ampia gamma di task downstream e valutazioni di perplessità. ARMOR raggiunge questa prestazione superiore mantenendo i miglioramenti della velocità di inferenza e le sostanziali riduzioni dell'uso di memoria del pruning 2:4, stabilendo un compromesso più efficace tra compressione del modello e accuratezza del task.
English
Large language models (LLMs) present significant deployment challenges due to
their immense computational and memory requirements. While semi-structured
pruning, particularly 2:4 sparsity, offers a path to practical hardware
acceleration, existing methods often incur substantial performance degradation.
To bridge this gap, we introduce ARMOR: (Adaptive Representation with
Matrix-factORization), a novel one-shot post-training pruning algorithm.
Instead of directly pruning weights, ARMOR factorizes each weight matrix into a
2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These
wrappers act as efficient pre and post-transformation error correctors,
offering greater flexibility to preserve model quality compared to conventional
2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen
through a block coordinate descent algorithm that minimizes a layer-wise proxy
loss. We theoretically prove this optimization is guaranteed to converge to a
solution with a proxy loss less than or equal to state-of-the-art pruning
algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and
Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and
significantly outperforms state-of-the-art 2:4 pruning methods across a wide
range of downstream tasks and perplexity evaluations. ARMOR achieves this
superior performance while retaining the inference speedups and substantial
memory usage reductions of 2:4 pruning, establishing a more effective trade-off
between model compression and task accuracy