ChatPaper.aiChatPaper

ARMOR: 적응형 행렬 분해를 통한 고성능 준구조화 프루닝

ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

October 7, 2025
저자: Lawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang
cs.AI

초록

대규모 언어 모델(LLMs)은 엄청난 계산 및 메모리 요구 사항으로 인해 배포에 상당한 어려움을 겪고 있습니다. 특히 2:4 희소성과 같은 반구조적 가지치기(semi-structured pruning)는 실질적인 하드웨어 가속을 위한 길을 제시하지만, 기존 방법들은 종종 상당한 성능 저하를 초래합니다. 이러한 격차를 해소하기 위해, 우리는 ARMOR(Adaptive Representation with Matrix-factORization)라는 새로운 원샷 사후 훈련 가지치기 알고리즘을 소개합니다. ARMOR는 가중치를 직접 가지치기하는 대신, 각 가중치 행렬을 두 개의 저오버헤드 블록 대각 행렬로 둘러싸인 2:4 희소 코어로 분해합니다. 이 래퍼(wrapper)는 효율적인 사전 및 사후 변형 오류 보정기 역할을 하여, 기존의 2:4 가지치기 기술에 비해 모델 품질을 보존하는 데 더 큰 유연성을 제공합니다. 희소 코어와 블록 대각 래퍼는 계층별 프록시 손실(proxy loss)을 최소화하는 블록 좌표 하강법(block coordinate descent) 알고리즘을 통해 선택됩니다. 우리는 이 최적화가 최신 가지치기 알고리즘보다 작거나 같은 프록시 손실을 가진 해로 수렴함을 이론적으로 증명합니다. Llama(Touvron 외, 2023; Dubey 외, 2024) 및 Qwen(Yang 외, 2025) 모델 패밀리에 대한 실험에서 ARMOR는 다양한 다운스트림 작업과 복잡도 평가에서 최신 2:4 가지치기 방법을 일관되게 크게 능가하는 성능을 보여줍니다. ARMOR는 이러한 우수한 성능을 달성하면서도 2:4 가지치기의 추론 속도 향상과 상당한 메모리 사용량 감소를 유지하여, 모델 압축과 작업 정확도 사이의 더 효과적인 균형을 확립합니다.
English
Large language models (LLMs) present significant deployment challenges due to their immense computational and memory requirements. While semi-structured pruning, particularly 2:4 sparsity, offers a path to practical hardware acceleration, existing methods often incur substantial performance degradation. To bridge this gap, we introduce ARMOR: (Adaptive Representation with Matrix-factORization), a novel one-shot post-training pruning algorithm. Instead of directly pruning weights, ARMOR factorizes each weight matrix into a 2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These wrappers act as efficient pre and post-transformation error correctors, offering greater flexibility to preserve model quality compared to conventional 2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen through a block coordinate descent algorithm that minimizes a layer-wise proxy loss. We theoretically prove this optimization is guaranteed to converge to a solution with a proxy loss less than or equal to state-of-the-art pruning algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and significantly outperforms state-of-the-art 2:4 pruning methods across a wide range of downstream tasks and perplexity evaluations. ARMOR achieves this superior performance while retaining the inference speedups and substantial memory usage reductions of 2:4 pruning, establishing a more effective trade-off between model compression and task accuracy
PDF22October 13, 2025