RaBiT: Treinamento de Binarização com Consciência Residual para LLMs Precisos e Eficientes

Resumo

A implantação eficiente de grandes modelos de linguagem (LLMs) requer quantização extrema, forçando uma troca crítica entre a eficiência de baixo bit e o desempenho. A binarização residual permite inferência amigável ao *hardware* e livre de multiplicação de matrizes (*matmul*) através do empilhamento de camadas binárias (±1), mas é prejudicada pela co-adaptação patológica de características. Identificamos um modo de falha fundamental, que denominamos **adaptação inter-caminhos**: durante o treino consciente da quantização (*Quantization-Aware Training - QAT*), os caminhos binários residuais paralelos aprendem características redundantes, degradando a estrutura de compensação de erro e limitando a capacidade expressiva do modelo. Enquanto trabalhos anteriores dependem de soluções heurísticas (por exemplo, congelação de caminhos) que restringem o espaço de soluções, propomos o **RaBiT**, uma nova estrutura de quantização que resolve a co-adaptação através da imposição algorítmica de uma hierarquia residual. O seu mecanismo central deriva sequencialmente cada caminho binário a partir de um único peso de precisão completa partilhado, o que garante que cada caminho corrija o erro do anterior. Este processo é estabilizado por uma inicialização robusta que prioriza a preservação funcional em detrimento da mera aproximação de pesos. O RaBiT redefine a fronteira de precisão-eficiência de 2 bits: atua um desempenho de última geração, rivaliza mesmo com métodos de Quantização Vetorial (VQ) intensivos em *hardware* e proporciona uma aceleração de inferência de 4.49x em relação a modelos de precisão completa numa RTX 4090.

English

Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary (pm1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a 4.49times inference speed-up over full-precision models on an RTX 4090.

RaBiT: Treinamento de Binarização com Consciência Residual para LLMs Precisos e Eficientes

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

Resumo

Support