RaBiT: Addestramento di Binarizzazione Consapevole del Residuo per LLM Precisi ed Efficienti

Abstract

La distribuzione efficiente di grandi modelli linguistici (LLM) richiede una quantizzazione estrema, imponendo un compromesso critico tra efficienza a basso bit e prestazioni. La binarizzazione residua consente inferenza matmul-free e compatibile con l'hardware impilando strati binari (pm1), ma è afflitta da una patologica co-adattamento delle feature. Identifichiamo una modalità di fallimento chiave, che definiamo adattamento inter-percorso: durante l'addestramento con consapevolezza della quantizzazione (QAT), i percorsi binari residui paralleli apprendono feature ridondanti, degradando la struttura di compensazione dell'errore e limitando la capacità espressiva del modello. Mentre i lavori precedenti si affidano a soluzioni euristiche (ad esempio, il blocco dei percorsi) che vincolano lo spazio delle soluzioni, noi proponiamo RaBiT, un nuovo framework di quantizzazione che risolve il co-adattamento imponendo algoritmicamente una gerarchia residua. Il suo meccanismo centrale deriva sequenzialmente ogni percorso binario da un singolo peso in piena precisione condiviso, garantendo che ogni percorso corregga l'errore di quello precedente. Questo processo è stabilizzato da un'inizializzazione robusta che privilegia la preservazione funzionale rispetto alla mera approssimazione dei pesi. RaBiT ridefinisce la frontiera accuratezza-efficienza a 2 bit: raggiunge prestazioni all'avanguardia, rivaleggia persino con i metodi hardware-intensive di Quantizzazione Vettoriale (VQ) e garantisce un'accelerazione dell'inferenza di 4,49 volte rispetto ai modelli in piena precisione su una RTX 4090.

English

Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary (pm1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a 4.49times inference speed-up over full-precision models on an RTX 4090.

RaBiT: Addestramento di Binarizzazione Consapevole del Residuo per LLM Precisi ed Efficienti

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

Abstract

Support