RaBiT: 정확하고 효율적인 LLM을 위한 잔여 인식 이진화 학습
RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs
February 5, 2026
저자: Youngcheon You, Banseok Lee, Minseop Choi, Seonyoung Kim, Hyochan Chong, Changdong Kim, Youngmin Kim, Dongkyu Kim
cs.AI
초록
대규모 언어 모델(LLM)의 효율적인 배포를 위해서는 극단적인 양자화가 필요하며, 이는 저비트 효율성과 성능 사이의 중요한 트레이드오프를 강제합니다. 잔여 이진화는 이진(pm1) 레이어를 중첩하여 하드웨어 친화적이고 행렬 곱셈이 불필요한 추론을 가능하게 하지만, 병리적인 특징 공동 적응 문제가 발생합니다. 본 연구에서는 양자화 인지 학습(QAT) 과정에서 병렬 잔여 이진 경로들이 중복된 특징을 학습하여 오류 보상 구조를 저하시키고 모델의 표현 능력을 제한하는 주요 실패 모드, 즉 경로 간 적응을 규명합니다. 기존 연구는 해결 공간을 제한하는 경험적 우회 방법(예: 경로 고정)에 의존하는 반면, 본 연구에서는 알고리즘적으로 잔여 계층 구조를 강제하여 공동 적응 문제를 해결하는 새로운 양자화 프레임워크인 RaBiT를 제안합니다. 이의 핵심 메커니즘은 단일 공유 전체 정밀도 가중치로부터 각 이진 경로를 순차적으로 도출함으로써 모든 경로가 선행 경로의 오류를 수정하도록 보장합니다. 이 과정은 단순한 가중치 근사가 아닌 기능 보존을 우선하는 강력한 초기화 방법으로 안정화됩니다. RaBiT는 2비트 정확도-효율성 경계를 재정의합니다: 이는 최첨단 성능을 달성하고, 하드웨어 집약적인 벡터 양자화(VQ) 방법과도 경쟁하며, RTX 4090에서 전체 정밀도 모델 대비 4.49배의 추론 속도 향상을 제공합니다.
English
Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary (pm1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a 4.49times inference speed-up over full-precision models on an RTX 4090.