ARMOR: Poda Semi-Estructurada de Alto Rendimiento mediante Factorización de Matrices Adaptativa
ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization
October 7, 2025
Autores: Lawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) presentan desafíos significativos de implementación debido a sus enormes requisitos computacionales y de memoria. Si bien el pruning semi-estructurado, particularmente la esparsidad 2:4, ofrece un camino hacia la aceleración práctica en hardware, los métodos existentes a menudo incurren en una degradación sustancial del rendimiento. Para cerrar esta brecha, presentamos ARMOR: (Adaptive Representation with Matrix-factORization), un novedoso algoritmo de pruning post-entrenamiento de una sola pasada. En lugar de podar los pesos directamente, ARMOR factoriza cada matriz de pesos en un núcleo esparso 2:4 envuelto por dos matrices diagonales por bloques de bajo costo. Estos envoltorios actúan como correctores de error de pre y post-transformación eficientes, ofreciendo una mayor flexibilidad para preservar la calidad del modelo en comparación con las técnicas convencionales de pruning 2:4. El núcleo esparso y los envoltorios diagonales por bloques se seleccionan mediante un algoritmo de descenso coordenado por bloques que minimiza una pérdida proxy por capa. Teóricamente, demostramos que esta optimización está garantizada para converger a una solución con una pérdida proxy menor o igual que los algoritmos de pruning más avanzados. Los experimentos en las familias de modelos Llama (Touvron et al., 2023; Dubey et al., 2024) y Qwen (Yang et al., 2025) muestran que ARMOR supera consistentemente y de manera significativa a los métodos de pruning 2:4 más avanzados en una amplia gama de tareas posteriores y evaluaciones de perplejidad. ARMOR logra este rendimiento superior mientras mantiene las aceleraciones de inferencia y las reducciones sustanciales en el uso de memoria del pruning 2:4, estableciendo un equilibrio más efectivo entre la compresión del modelo y la precisión en las tareas.
English
Large language models (LLMs) present significant deployment challenges due to
their immense computational and memory requirements. While semi-structured
pruning, particularly 2:4 sparsity, offers a path to practical hardware
acceleration, existing methods often incur substantial performance degradation.
To bridge this gap, we introduce ARMOR: (Adaptive Representation with
Matrix-factORization), a novel one-shot post-training pruning algorithm.
Instead of directly pruning weights, ARMOR factorizes each weight matrix into a
2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These
wrappers act as efficient pre and post-transformation error correctors,
offering greater flexibility to preserve model quality compared to conventional
2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen
through a block coordinate descent algorithm that minimizes a layer-wise proxy
loss. We theoretically prove this optimization is guaranteed to converge to a
solution with a proxy loss less than or equal to state-of-the-art pruning
algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and
Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and
significantly outperforms state-of-the-art 2:4 pruning methods across a wide
range of downstream tasks and perplexity evaluations. ARMOR achieves this
superior performance while retaining the inference speedups and substantial
memory usage reductions of 2:4 pruning, establishing a more effective trade-off
between model compression and task accuracy