RaBiT: Restwertbewusstes Binarisierungstraining für präzise und effiziente große Sprachmodelle

Zusammenfassung

Die effiziente Bereitstellung großer Sprachmodelle (LLMs) erfordert extreme Quantisierung, was einen kritischen Zielkonflikt zwischen Niedrigbit-Effizienz und Leistungsfähigkeit erzwingt. Residuale Binarisierung ermöglicht hardwarefreundlichen, matmul-freien Inferenzbetrieb durch das Stapeln binärer (±1) Schichten, leidet jedoch unter pathologischer Feature-Koadaption. Wir identifizieren einen zentralen Fehlermodus, den wir als Inter-Pfad-Adaptation bezeichnen: Während des quantisierungsbewussten Trainings (QAT) erlernen parallele residuale Binärpfade redundante Merkmale, was die Fehlerkompensationsstruktur verschlechtert und die Ausdruckskapazität des Modells begrenzt. Während frühere Arbeiten auf heuristischen Workarounds (z.B. Pfadeinfrieren) basieren, die den Lösungsraum einschränken, schlagen wir RaBiT vor, ein neuartiges Quantisierungsframework, das Koadaption durch algorithmische Erzwingung einer Residualhierarchie auflöst. Sein Kernmechanismus leitet jeden Binärpfad sequenziell aus einem einzigen gemeinsamen Vollpräzisions-Gewicht ab, was sicherstellt, dass jeder Pfad den Fehler des vorherigen korrigiert. Dieser Prozess wird durch eine robuste Initialisierung stabilisiert, die funktionale Erhaltung über bloße Gewichtsapproximation priorisiert. RaBiT definiert die 2-Bit-Genauigkeits-Effizienz-Grenze neu: Es erreicht state-of-the-art Leistung, rivalisiert sogar hardwareintensive Vektorquantisierungs-(VQ-)Methoden und erzielt eine 4,49-fache Inferenzbeschleunigung gegenüber Vollpräzisionsmodellen auf einer RTX 4090.

English

Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary (pm1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a 4.49times inference speed-up over full-precision models on an RTX 4090.

RaBiT: Restwertbewusstes Binarisierungstraining für präzise und effiziente große Sprachmodelle

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

Zusammenfassung

Support