ChatPaper.aiChatPaper

RaBiT:高精度で効率的な大規模言語モデルのための残差認識二値化トレーニング

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

February 5, 2026
著者: Youngcheon You, Banseok Lee, Minseop Choi, Seonyoung Kim, Hyochan Chong, Changdong Kim, Youngmin Kim, Dongkyu Kim
cs.AI

要旨

大規模言語モデル(LLM)の効率的なデプロイには極端な量子化が必須であり、低ビット効率と性能の間で重大なトレードオフが生じる。残差二値化は、二値(±1)層を積み重ねることでハードウェアに優しい行列積演算不要の推論を実現するが、病的な特徴の共適応に悩まされてきた。本研究では、量子化対応訓練(QAT)において、並列の残差二値パスが冗長な特徴を学習し、誤差補償構造を劣化させ、モデルの表現能力を制限するという重要な故障モードを「経路間適応」と命名して特定する。従来研究は解空間を制限するヒューリスティックな回避策(経路凍結など)に依存していたが、我々はアルゴリズム的に残差階層を強制することで共適応を解決する新しい量子化フレームワーク「RaBiT」を提案する。その核心メカニズムは、単一の共有フル精度重みから各二値パスを順次導出するもので、全てのパスが前のパスの誤差を補正することを保証する。このプロセスは、単なる重み近似ではなく機能保存を優先する堅牢な初期化によって安定化される。RaBiTは2ビットの精度と効率の限界を再定義する:state-of-the-artの性能を達成し、ハードウェア集約的なベクトル量子化(VQ)手法にも匹敵し、RTX 4090上でフル精度モデル比4.49倍の推論高速化を実現する。
English
Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary (pm1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a 4.49times inference speed-up over full-precision models on an RTX 4090.
PDF73February 17, 2026