ARMOR: Poda Semi-Estruturada de Alto Desempenho via Fatoração de Matriz Adaptativa
ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization
October 7, 2025
Autores: Lawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) apresentam desafios significativos de implantação devido aos seus imensos requisitos computacionais e de memória. Embora o pruning semi-estruturado, particularmente a esparsidade 2:4, ofereça um caminho para a aceleração prática em hardware, os métodos existentes frequentemente resultam em uma degradação substancial de desempenho. Para preencher essa lacuna, introduzimos o ARMOR: (Adaptive Representation with Matrix-factORization), um novo algoritmo de pruning pós-treinamento em uma única etapa. Em vez de podar diretamente os pesos, o ARMOR fatoriza cada matriz de pesos em um núcleo esparso 2:4 envolto por duas matrizes diagonais de bloco de baixo custo. Esses envoltórios atuam como corretores de erro de pré e pós-transformação eficientes, oferecendo maior flexibilidade para preservar a qualidade do modelo em comparação com as técnicas convencionais de pruning 2:4. O núcleo esparso e os envoltórios diagonais de bloco são escolhidos por meio de um algoritmo de descida coordenada por blocos que minimiza uma perda proxy por camada. Provamos teoricamente que essa otimização é garantida para convergir para uma solução com uma perda proxy menor ou igual aos algoritmos de pruning state-of-the-art. Experimentos nas famílias de modelos Llama (Touvron et al., 2023; Dubey et al., 2024) e Qwen (Yang et al., 2025) demonstram que o ARMOR supera consistentemente e de forma significativa os métodos de pruning 2:4 state-of-the-art em uma ampla gama de tarefas downstream e avaliações de perplexidade. O ARMOR alcança esse desempenho superior enquanto mantém os ganhos de velocidade de inferência e as reduções substanciais no uso de memória do pruning 2:4, estabelecendo uma troca mais eficaz entre compressão do modelo e precisão da tarefa.
English
Large language models (LLMs) present significant deployment challenges due to
their immense computational and memory requirements. While semi-structured
pruning, particularly 2:4 sparsity, offers a path to practical hardware
acceleration, existing methods often incur substantial performance degradation.
To bridge this gap, we introduce ARMOR: (Adaptive Representation with
Matrix-factORization), a novel one-shot post-training pruning algorithm.
Instead of directly pruning weights, ARMOR factorizes each weight matrix into a
2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These
wrappers act as efficient pre and post-transformation error correctors,
offering greater flexibility to preserve model quality compared to conventional
2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen
through a block coordinate descent algorithm that minimizes a layer-wise proxy
loss. We theoretically prove this optimization is guaranteed to converge to a
solution with a proxy loss less than or equal to state-of-the-art pruning
algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and
Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and
significantly outperforms state-of-the-art 2:4 pruning methods across a wide
range of downstream tasks and perplexity evaluations. ARMOR achieves this
superior performance while retaining the inference speedups and substantial
memory usage reductions of 2:4 pruning, establishing a more effective trade-off
between model compression and task accuracy