ARMOR: Hochleistungsfähige semi-strukturierte Pruning durch adaptive Matrixfaktorisierung
ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization
October 7, 2025
papers.authors: Lawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) stellen aufgrund ihrer immensen Rechen- und Speicheranforderungen erhebliche Herausforderungen bei der Bereitstellung dar. Während halbstrukturiertes Pruning, insbesondere 2:4-Sparsity, einen Weg zur praktischen Hardwarebeschleunigung bietet, führen bestehende Methoden oft zu erheblichen Leistungseinbußen. Um diese Lücke zu schließen, führen wir ARMOR ein: (Adaptive Representation with Matrix-factORization), einen neuartigen One-Shot-Post-Training-Pruning-Algorithmus. Anstatt Gewichte direkt zu beschneiden, faktorisiert ARMOR jede Gewichtsmatrix in einen 2:4-sparsamen Kern, der von zwei blockdiagonalen Matrizen mit geringem Overhead umhüllt wird. Diese Umhüllungen fungieren als effiziente Vor- und Nachtransformation-Fehlerkorrektoren und bieten im Vergleich zu konventionellen 2:4-Pruning-Techniken eine größere Flexibilität, um die Modellqualität zu erhalten. Der sparsame Kern und die blockdiagonalen Umhüllungen werden durch einen Block-Koordinatenabstiegsalgorithmus ausgewählt, der einen schichtweisen Proxy-Verlust minimiert. Wir beweisen theoretisch, dass diese Optimierung garantiert zu einer Lösung mit einem Proxy-Verlust konvergiert, der kleiner oder gleich dem von state-of-the-art Pruning-Algorithmen ist. Experimente mit den Modellfamilien Llama (Touvron et al., 2023; Dubey et al., 2024) und Qwen (Yang et al., 2025) zeigen, dass ARMOR durchweg und signifikant die state-of-the-art 2:4-Pruning-Methoden bei einer Vielzahl von Downstream-Aufgaben und Perplexitätsbewertungen übertrifft. ARMOR erreicht diese überlegene Leistung, während es die Beschleunigung der Inferenz und die erhebliche Reduzierung des Speicherverbrauchs von 2:4-Pruning beibehält, wodurch ein effektiverer Kompromiss zwischen Modellkompression und Aufgabenpräzision erreicht wird.
English
Large language models (LLMs) present significant deployment challenges due to
their immense computational and memory requirements. While semi-structured
pruning, particularly 2:4 sparsity, offers a path to practical hardware
acceleration, existing methods often incur substantial performance degradation.
To bridge this gap, we introduce ARMOR: (Adaptive Representation with
Matrix-factORization), a novel one-shot post-training pruning algorithm.
Instead of directly pruning weights, ARMOR factorizes each weight matrix into a
2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These
wrappers act as efficient pre and post-transformation error correctors,
offering greater flexibility to preserve model quality compared to conventional
2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen
through a block coordinate descent algorithm that minimizes a layer-wise proxy
loss. We theoretically prove this optimization is guaranteed to converge to a
solution with a proxy loss less than or equal to state-of-the-art pruning
algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and
Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and
significantly outperforms state-of-the-art 2:4 pruning methods across a wide
range of downstream tasks and perplexity evaluations. ARMOR achieves this
superior performance while retaining the inference speedups and substantial
memory usage reductions of 2:4 pruning, establishing a more effective trade-off
between model compression and task accuracy