LLM의 양자화와 희소화를 위한 최적의 뇌 복원 기법
Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs
September 14, 2025
저자: Hang Guo, Yawei Li, Luca Benini
cs.AI
초록
대규모 언어 모델(LLM) 압축 분야에서 양자화(quantization)와 가지치기(pruning)와 같은 최근의 발전은 주목할 만한 성과를 거두었습니다. 그러나 이러한 기술들이 점점 각자의 한계에 다가가면서, 단일 방법에 의존한 추가 압축은 점점 더 어려워지고 있습니다. 본 연구에서는 양자화와 희소성(sparsity)을 결합하는 대안적 해결책을 탐구합니다. 이 결합 접근법은 유망하지만, 가중치 분포에 대한 본질적으로 상충되는 요구사항으로 인해 새로운 어려움을 야기합니다: 양자화는 좁은 범위를 선호하는 반면, 가지치기는 높은 분산에서 이점을 얻기 때문입니다. 이 문제를 해결하기 위해, 우리는 최적 뇌 복원(Optimal Brain Restoration, OBR)이라는 일반적이고 학습이 필요 없는 프레임워크를 제안합니다. OBR은 양자화와 가지치기 간의 오류 보상을 통해 두 방법을 조정합니다. OBR은 2차 헤시안(Hessian) 목적 함수를 기반으로 하여 다운스트림 작업에서의 성능 저하를 최소화하며, 이를 대리 근사(surrogate approximation)를 통해 다루기 쉬운 문제로 재구성하고, 궁극적으로 그룹 오류 보상을 통해 폐쇄형 해(closed-form solution)에 도달합니다. 실험 결과, OBR은 기존 LLM에서 50% 희소성을 가진 W4A4KV4 양자화를 가능하게 하며, FP16-밀집(dense) 기준 대비 최대 4.72배의 속도 향상과 6.4배의 메모리 감소를 달성합니다.
English
Recent advances in Large Language Model (LLM) compression, such as
quantization and pruning, have achieved notable success. However, as these
techniques gradually approach their respective limits, relying on a single
method for further compression has become increasingly challenging. In this
work, we explore an alternative solution by combining quantization and
sparsity. This joint approach, though promising, introduces new difficulties
due to the inherently conflicting requirements on weight distributions:
quantization favors compact ranges, while pruning benefits from high variance.
To attack this problem, we propose Optimal Brain Restoration (OBR), a general
and training-free framework that aligns pruning and quantization by error
compensation between both. OBR minimizes performance degradation on downstream
tasks by building on a second-order Hessian objective, which is then
reformulated into a tractable problem through surrogate approximation and
ultimately reaches a closed-form solution via group error compensation.
Experiments show that OBR enables aggressive W4A4KV4 quantization with 50%
sparsity on existing LLMs, and delivers up to 4.72x speedup and 6.4x memory
reduction compared to the FP16-dense baseline.