ARMOR: Poda Semi-Estruturada de Alto Desempenho via Fatoração de Matriz Adaptativa

Resumo

Modelos de linguagem de grande escala (LLMs) apresentam desafios significativos de implantação devido aos seus imensos requisitos computacionais e de memória. Embora o pruning semi-estruturado, particularmente a esparsidade 2:4, ofereça um caminho para a aceleração prática em hardware, os métodos existentes frequentemente resultam em uma degradação substancial de desempenho. Para preencher essa lacuna, introduzimos o ARMOR: (Adaptive Representation with Matrix-factORization), um novo algoritmo de pruning pós-treinamento em uma única etapa. Em vez de podar diretamente os pesos, o ARMOR fatoriza cada matriz de pesos em um núcleo esparso 2:4 envolto por duas matrizes diagonais de bloco de baixo custo. Esses envoltórios atuam como corretores de erro de pré e pós-transformação eficientes, oferecendo maior flexibilidade para preservar a qualidade do modelo em comparação com as técnicas convencionais de pruning 2:4. O núcleo esparso e os envoltórios diagonais de bloco são escolhidos por meio de um algoritmo de descida coordenada por blocos que minimiza uma perda proxy por camada. Provamos teoricamente que essa otimização é garantida para convergir para uma solução com uma perda proxy menor ou igual aos algoritmos de pruning state-of-the-art. Experimentos nas famílias de modelos Llama (Touvron et al., 2023; Dubey et al., 2024) e Qwen (Yang et al., 2025) demonstram que o ARMOR supera consistentemente e de forma significativa os métodos de pruning 2:4 state-of-the-art em uma ampla gama de tarefas downstream e avaliações de perplexidade. O ARMOR alcança esse desempenho superior enquanto mantém os ganhos de velocidade de inferência e as reduções substanciais no uso de memória do pruning 2:4, estabelecendo uma troca mais eficaz entre compressão do modelo e precisão da tarefa.

English

Large language models (LLMs) present significant deployment challenges due to their immense computational and memory requirements. While semi-structured pruning, particularly 2:4 sparsity, offers a path to practical hardware acceleration, existing methods often incur substantial performance degradation. To bridge this gap, we introduce ARMOR: (Adaptive Representation with Matrix-factORization), a novel one-shot post-training pruning algorithm. Instead of directly pruning weights, ARMOR factorizes each weight matrix into a 2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These wrappers act as efficient pre and post-transformation error correctors, offering greater flexibility to preserve model quality compared to conventional 2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen through a block coordinate descent algorithm that minimizes a layer-wise proxy loss. We theoretically prove this optimization is guaranteed to converge to a solution with a proxy loss less than or equal to state-of-the-art pruning algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and significantly outperforms state-of-the-art 2:4 pruning methods across a wide range of downstream tasks and perplexity evaluations. ARMOR achieves this superior performance while retaining the inference speedups and substantial memory usage reductions of 2:4 pruning, establishing a more effective trade-off between model compression and task accuracy

ARMOR: Poda Semi-Estruturada de Alto Desempenho via Fatoração de Matriz Adaptativa

ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

Resumo

Support