ChatPaper.aiChatPaper

RaBiT: Остаточно-осознанное бинаризационное обучение для точных и эффективных больших языковых моделей

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

February 5, 2026
Авторы: Youngcheon You, Banseok Lee, Minseop Choi, Seonyoung Kim, Hyochan Chong, Changdong Kim, Youngmin Kim, Dongkyu Kim
cs.AI

Аннотация

Эффективное развертывание больших языковых моделей (LLM) требует экстремального квантования, что создает критический компромисс между эффективностью низкоразрядного представления и производительностью. Остаточная бинаризация позволяет реализовать удобный для аппаратного обеспечения вывод без операций матричного умножения за счет stacking бинарных (±1) слоев, однако страдает от патологического явления ко-адаптации признаков. Мы выявляем ключевую проблему, которую называем межпутевой адаптацией: в процессе квантующего обучения параллельные остаточные бинарные пути изучают избыточные признаки, что деградирует структуру компенсации ошибок и ограничивает выразительную способность модели. В то время как предыдущие работы опираются на эвристические обходные решения (например, замораживание путей), которые ограничивают пространство решений, мы предлагаем RaBiT — новую framework квантования, которая разрешает ко-адаптацию за счет алгоритмического обеспечения иерархии остатков. Ее ключевой механизм последовательно выводит каждый бинарный путь из единого разделяемого веса с полной точностью, что гарантирует, что каждый путь корректирует ошибку предыдущего. Этот процесс стабилизируется надежной инициализацией, которая отдает приоритет сохранению функциональности над простой аппроксимацией весов. RaBiT переопределяет границу компромисса «точность-эффективность» для 2-битного представления: метод демонстрирует наилучшую производительность, конкурирует даже с требовательными к аппаратным ресурсам методами векторного квантования и обеспечивает ускорение вывода в 4.49 раза по сравнению с моделями полной точности на RTX 4090.
English
Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary (pm1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a 4.49times inference speed-up over full-precision models on an RTX 4090.
PDF73February 17, 2026