ARMOR : Élagage semi-structuré haute performance via factorisation matricielle adaptative

papers.abstract

Les grands modèles de langage (LLMs) posent des défis de déploiement importants en raison de leurs exigences computationnelles et mémoire considérables. Bien que l'élagage semi-structuré, en particulier la sparsité 2:4, offre une voie vers une accélération matérielle pratique, les méthodes existantes entraînent souvent une dégradation substantielle des performances. Pour combler cet écart, nous introduisons ARMOR (Adaptive Representation with Matrix-factORization), un nouvel algorithme d'élagage post-entraînement en une seule étape. Au lieu d'élaguer directement les poids, ARMOR factorise chaque matrice de poids en un cœur sparse 2:4 enveloppé par deux matrices diagonales par blocs à faible surcharge. Ces enveloppes agissent comme des correcteurs d'erreur de pré et post-transformation efficaces, offrant une plus grande flexibilité pour préserver la qualité du modèle par rapport aux techniques d'élagage 2:4 conventionnelles. Le cœur sparse et les enveloppes diagonales par blocs sont choisis via un algorithme de descente de coordonnées par blocs qui minimise une perte proxy par couche. Nous prouvons théoriquement que cette optimisation est garantie de converger vers une solution avec une perte proxy inférieure ou égale à celle des algorithmes d'élagage de pointe. Les expériences sur les familles de modèles Llama (Touvron et al., 2023 ; Dubey et al., 2024) et Qwen (Yang et al., 2025) démontrent qu'ARMOR surpasse de manière constante et significative les méthodes d'élagage 2:4 de pointe sur un large éventail de tâches en aval et d'évaluations de perplexité. ARMOR atteint cette performance supérieure tout en conservant les accélérations d'inférence et les réductions substantielles de l'utilisation de la mémoire de l'élagage 2:4, établissant un compromis plus efficace entre la compression du modèle et la précision des tâches.

English

Large language models (LLMs) present significant deployment challenges due to their immense computational and memory requirements. While semi-structured pruning, particularly 2:4 sparsity, offers a path to practical hardware acceleration, existing methods often incur substantial performance degradation. To bridge this gap, we introduce ARMOR: (Adaptive Representation with Matrix-factORization), a novel one-shot post-training pruning algorithm. Instead of directly pruning weights, ARMOR factorizes each weight matrix into a 2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These wrappers act as efficient pre and post-transformation error correctors, offering greater flexibility to preserve model quality compared to conventional 2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen through a block coordinate descent algorithm that minimizes a layer-wise proxy loss. We theoretically prove this optimization is guaranteed to converge to a solution with a proxy loss less than or equal to state-of-the-art pruning algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and significantly outperforms state-of-the-art 2:4 pruning methods across a wide range of downstream tasks and perplexity evaluations. ARMOR achieves this superior performance while retaining the inference speedups and substantial memory usage reductions of 2:4 pruning, establishing a more effective trade-off between model compression and task accuracy

ARMOR : Élagage semi-structuré haute performance via factorisation matricielle adaptative

ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

papers.abstract

Support