RaBiT: Entrenamiento de Binarización Consciente del Residuo para LLMs Precisos y Eficientes

Resumen

La implementación eficiente de modelos de lenguaje grandes (LLM) requiere una cuantificación extrema, lo que impone una disyuntiva crítica entre la eficiencia de bajo bit y el rendimiento. La binarización residual permite una inferencia eficiente para hardware y libre de multiplicaciones de matrices (matmul) mediante la disposición en capas de operadores binarios (±1), pero se ve afectada por una patológica co-adaptación de características. Identificamos un modo de fallo clave, que denominamos **adaptación inter-rutas**: durante el entrenamiento consciente de la cuantificación (QAT), las rutas residuales binarias paralelas aprenden características redundantes, degradando la estructura de compensación de errores y limitando la capacidad expresiva del modelo. Mientras que trabajos previos dependen de soluciones heurísticas (como la congelación de rutas) que restringen el espacio de soluciones, proponemos **RaBiT**, un novedoso marco de cuantificación que resuelve la co-adaptación mediante la imposición algorítmica de una jerarquía residual. Su mecanismo central deriva secuencialmente cada ruta binaria a partir de un único peso de precisión completa compartido, lo que garantiza que cada ruta corrija el error de la anterior. Este proceso se estabiliza mediante una inicialización robusta que prioriza la preservación funcional sobre la mera aproximación de pesos. RaBiT redefine el límite de precisión-eficiencia para 2 bits: logra un rendimiento de vanguardia, rivaliza incluso con los métodos de Cuantificación Vectorial (VQ) intensivos en hardware, y proporciona una aceleración de la inferencia de 4.49 veces sobre los modelos de precisión completa en una RTX 4090.

English

Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary (pm1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a 4.49times inference speed-up over full-precision models on an RTX 4090.