RaBiT : Entraînement par Binarisation Sensible aux Résidus pour des LLM Précises et Efficaces

Résumé

Le déploiement efficace de grands modèles de langage (LLM) nécessite une quantification extrême, imposant un compromis crucial entre l'efficacité en bas débit et les performances. La binarisation résiduelle permet une inférence sans produit matriciel et adaptée au matériel en empilant des couches binaires (±1), mais elle est entravée par une co-adaptation pathologique des caractéristiques. Nous identifions un mode de défaillance clé, que nous nommons adaptation inter-chemins : pendant l'entraînement avec quantification (QAT), les chemins résiduels binaires parallèles apprennent des caractéristiques redondantes, dégradant la structure de compensation d'erreur et limitant la capacité expressive du modèle. Alors que les travaux antérieurs reposent sur des solutions heuristiques (par exemple, le gel de chemins) qui restreignent l'espace des solutions, nous proposons RaBiT, un nouveau cadre de quantification qui résout la co-adaptation en imposant algorithmiquement une hiérarchie résiduelle. Son mécanisme central dérive séquentiellement chaque chemin binaire à partir d'un unique poids en pleine précision partagé, garantissant que chaque chemin corrige l'erreur du précédent. Ce processus est stabilisé par une initialisation robuste qui privilégie la préservation fonctionnelle plutôt qu'une simple approximation des poids. RaBiT redéfinit la frontière précision-efficacité à 2 bits : il atteint des performances à l'état de l'art, rivalise même avec les méthodes de quantification vectorielle (VQ) gourmandes en matériel, et offre une accélération de l'inférence de 4,49 fois par rapport aux modèles en pleine précision sur une RTX 4090.

English

Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary (pm1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a 4.49times inference speed-up over full-precision models on an RTX 4090.

RaBiT : Entraînement par Binarisation Sensible aux Résidus pour des LLM Précises et Efficaces

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

Résumé

Support