RaBiT: Остаточно-осознанное бинаризационное обучение для точных и эффективных больших языковых моделей

Аннотация

Эффективное развертывание больших языковых моделей (LLM) требует экстремального квантования, что создает критический компромисс между эффективностью низкоразрядного представления и производительностью. Остаточная бинаризация позволяет реализовать удобный для аппаратного обеспечения вывод без операций матричного умножения за счет stacking бинарных (±1) слоев, однако страдает от патологического явления ко-адаптации признаков. Мы выявляем ключевую проблему, которую называем межпутевой адаптацией: в процессе квантующего обучения параллельные остаточные бинарные пути изучают избыточные признаки, что деградирует структуру компенсации ошибок и ограничивает выразительную способность модели. В то время как предыдущие работы опираются на эвристические обходные решения (например, замораживание путей), которые ограничивают пространство решений, мы предлагаем RaBiT — новую framework квантования, которая разрешает ко-адаптацию за счет алгоритмического обеспечения иерархии остатков. Ее ключевой механизм последовательно выводит каждый бинарный путь из единого разделяемого веса с полной точностью, что гарантирует, что каждый путь корректирует ошибку предыдущего. Этот процесс стабилизируется надежной инициализацией, которая отдает приоритет сохранению функциональности над простой аппроксимацией весов. RaBiT переопределяет границу компромисса «точность-эффективность» для 2-битного представления: метод демонстрирует наилучшую производительность, конкурирует даже с требовательными к аппаратным ресурсам методами векторного квантования и обеспечивает ускорение вывода в 4.49 раза по сравнению с моделями полной точности на RTX 4090.

English

Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary (pm1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a 4.49times inference speed-up over full-precision models on an RTX 4090.

RaBiT: Остаточно-осознанное бинаризационное обучение для точных и эффективных больших языковых моделей

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

Аннотация

Support