ARMOR: Высокопроизводительное полуструктурированное прореживание с использованием адаптивной матричной факторизации
ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization
October 7, 2025
Авторы: Lawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang
cs.AI
Аннотация
Крупные языковые модели (LLM) представляют значительные сложности при развертывании из-за их огромных вычислительных и ресурсных требований. Хотя полуструктурированное прореживание, в частности разреженность 2:4, предлагает путь к практическому аппаратному ускорению, существующие методы часто приводят к существенному снижению производительности. Чтобы устранить этот разрыв, мы представляем ARMOR (Adaptive Representation with Matrix-factORization) — новый одноэтапный алгоритм прореживания после обучения. Вместо прямого прореживания весов ARMOR факторизует каждую весовую матрицу в разреженное ядро 2:4, обернутое двумя блочно-диагональными матрицами с низкими накладными расходами. Эти обертки действуют как эффективные пред- и пост-трансформационные корректоры ошибок, обеспечивая большую гибкость для сохранения качества модели по сравнению с традиционными методами прореживания 2:4. Разреженное ядро и блочно-диагональные обертки выбираются с помощью алгоритма блочного координатного спуска, который минимизирует послойный прокси-потеря. Мы теоретически доказываем, что эта оптимизация гарантированно сходится к решению с прокси-потерями, меньшими или равными современным алгоритмам прореживания. Эксперименты на семействах моделей Llama (Touvron et al., 2023; Dubey et al., 2024) и Qwen (Yang et al., 2025) демонстрируют, что ARMOR стабильно и значительно превосходит современные методы прореживания 2:4 в широком спектре задач и оценок перплексии. ARMOR достигает этого превосходства, сохраняя ускорение вывода и значительное сокращение использования памяти, характерные для прореживания 2:4, устанавливая более эффективный баланс между сжатием модели и точностью выполнения задач.
English
Large language models (LLMs) present significant deployment challenges due to
their immense computational and memory requirements. While semi-structured
pruning, particularly 2:4 sparsity, offers a path to practical hardware
acceleration, existing methods often incur substantial performance degradation.
To bridge this gap, we introduce ARMOR: (Adaptive Representation with
Matrix-factORization), a novel one-shot post-training pruning algorithm.
Instead of directly pruning weights, ARMOR factorizes each weight matrix into a
2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These
wrappers act as efficient pre and post-transformation error correctors,
offering greater flexibility to preserve model quality compared to conventional
2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen
through a block coordinate descent algorithm that minimizes a layer-wise proxy
loss. We theoretically prove this optimization is guaranteed to converge to a
solution with a proxy loss less than or equal to state-of-the-art pruning
algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and
Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and
significantly outperforms state-of-the-art 2:4 pruning methods across a wide
range of downstream tasks and perplexity evaluations. ARMOR achieves this
superior performance while retaining the inference speedups and substantial
memory usage reductions of 2:4 pruning, establishing a more effective trade-off
between model compression and task accuracy