OSCAR: Rotación fuera de línea consciente de la covarianza espectral para la cuantización de caché KV de 2 bits

Resumen

La cuantización de la caché KV en INT2 resulta atractiva para el servicio de modelos de lenguaje de gran longitud de contexto, pero sigue siendo difícil lograr que sea precisa y desplegable al mismo tiempo. Rotaciones simples, como las transformadas de Hadamard, reducen los valores atípicos, pero siguen degradándose en INT2 porque no están alineadas con la atención downstream. Proponemos OSCAR, un método de cuantización de caché KV de ultra-bajo bit que estima estructuras de covarianza conscientes de la atención fuera de línea y las utiliza para derivar rotaciones fijas y umbrales de recorte para la cuantización. De esta manera, alinea la cuantización KV con las estructuras de covarianza que la atención realmente consume. Más importante aún, no solo proporcionamos una justificación teórica, sino que también desarrollamos un sistema OSCAR completamente desplegable con un kernel de atención INT2 personalizado que sigue siendo compatible con el servicio de caché KV paginada y los pipelines de kernels fusionados, lo que permite una integración fluida en marcos modernos de servicio de modelos de lenguaje como SGLang y vLLM. Evaluamos nuestros métodos en modelos de razonamiento recientes con cadenas de razonamiento de hasta 32k tokens en 5 tareas. En Qwen3-4B-Thinking-2507 y Qwen3-8B, OSCAR reduce la brecha de precisión con BF16 a 3.78 y 1.42 puntos, respectivamente, mientras que la rotación INT2 ingenua colapsa a casi cero. Escalamos OSCAR a Qwen3-32B y GLM-4.7 (358B parámetros), donde se mantiene efectivamente a la par con BF16. En contexto largo — RULER-NIAH hasta 128K, OSCAR se mantiene robusto en ambos modelos Qwen3, mientras que la rotación INT2 ingenua colapsa. A nivel de sistema, OSCAR reduce la memoria de la caché KV en aproximadamente 8 veces, mejora el rendimiento hasta 7 veces en lotes grandes bajo el mismo presupuesto de memoria, y acelera la decodificación con tamaño de lote 1 hasta 3 veces en comparación con BF16 debido a la reducción de la sobrecarga del ancho de banda de memoria.

English

INT2 KV-cache quantization is attractive for long-context LLM serving, but it remains difficult to make both accurate and deployable. Simple rotations such as Hadamard transforms reduce outliers, but still degrade at INT2 because they are not aligned with downstream attention. We propose OSCAR, an Ultra-low-bit KV Cache quantization method that estimates attention-aware covariance structures offline and uses them to derive fixed rotations and clipping thresholds for quantization. In this way, it aligns KV quantization with the covariance structures that attention actually consumes. More importantly, we not only provide theoretical justification but also develop a fully deployable OSCAR system with a custom INT2 attention kernel that remains compatible with paged KV-cache serving and fused kernel pipelines, enabling seamless integration into modern LLM serving frameworks such as SGLang and vLLM. We evaluate our methods on recent reasoning models with reasoning traces of up to 32k tokens across 5 tasks. On Qwen3-4B-Thinking-2507 and Qwen3-8B, OSCAR reduces the BF16 accuracy gap to 3.78 and 1.42 points, respectively, while naive rotation INT2 collapses to nearly zero. We further scale OSCAR to Qwen3-32B and GLM-4.7 (358B params), where it remains effectively on par with BF16. On long context - RULER-NIAH up to 128K, OSCAR remains robust on both Qwen3 models, while naive rotation INT2 collapses. System-wise, OSCAR reduces KV-cache memory by approximately 8x, improves throughput by up to 7x at large batch sizes under the same memory budget, and accelerates batch-size-1 decoding by up to 3x over BF16 due to reduced memory bandwidth overhead.