OSCAR: Rotação Offline Ciente de Covariância Espectral para Quantização de Cache KV de 2 bits

Resumo

A quantização de cache KV INT2 é atraente para o atendimento de LLMs de contexto longo, mas continua sendo difícil torná-la precisa e implementável. Rotações simples, como transformadas de Hadamard, reduzem outliers, mas ainda degradam em INT2 por não estarem alinhadas com a atenção downstream. Propomos o OSCAR, um método de quantização de cache KV de bits ultrabaixos que estima estruturas de covariância conscientes da atenção offline e as utiliza para derivar rotações fixas e limiares de corte para a quantização. Dessa forma, ele alinha a quantização KV com as estruturas de covariância que a atenção realmente consome. Mais importante, não apenas fornecemos justificativa teórica, mas também desenvolvemos um sistema OSCAR totalmente implantável, com um kernel de atenção INT2 personalizado que permanece compatível com o serviço de cache KV paginado e pipelines de kernels fundidos, permitindo integração perfeita em frameworks modernos de atendimento de LLM, como SGLang e vLLM. Avaliamos nossos métodos em modelos de raciocínio recentes, com rastros de raciocínio de até 32 mil tokens em 5 tarefas. No Qwen3-4B-Thinking-2507 e no Qwen3-8B, o OSCAR reduz a diferença de precisão BF16 para 3,78 e 1,42 pontos, respectivamente, enquanto a rotação ingênua INT2 colapsa para quase zero. Estendemos ainda o OSCAR para o Qwen3-32B e o GLM-4.7 (358B parâmetros), onde ele permanece efetivamente comparável ao BF16. Em contexto longo – RULER-NIAH de até 128K – o OSCAR permanece robusto em ambos os modelos Qwen3, enquanto a rotação ingênua INT2 colapsa. Em termos de sistema, o OSCAR reduz a memória do cache KV em aproximadamente 8x, melhora a taxa de transferência em até 7x em tamanhos de lote grandes sob o mesmo orçamento de memória e acelera a decodificação com tamanho de lote 1 em até 3x em relação ao BF16 devido à redução da sobrecarga de largura de banda de memória.

English

INT2 KV-cache quantization is attractive for long-context LLM serving, but it remains difficult to make both accurate and deployable. Simple rotations such as Hadamard transforms reduce outliers, but still degrade at INT2 because they are not aligned with downstream attention. We propose OSCAR, an Ultra-low-bit KV Cache quantization method that estimates attention-aware covariance structures offline and uses them to derive fixed rotations and clipping thresholds for quantization. In this way, it aligns KV quantization with the covariance structures that attention actually consumes. More importantly, we not only provide theoretical justification but also develop a fully deployable OSCAR system with a custom INT2 attention kernel that remains compatible with paged KV-cache serving and fused kernel pipelines, enabling seamless integration into modern LLM serving frameworks such as SGLang and vLLM. We evaluate our methods on recent reasoning models with reasoning traces of up to 32k tokens across 5 tasks. On Qwen3-4B-Thinking-2507 and Qwen3-8B, OSCAR reduces the BF16 accuracy gap to 3.78 and 1.42 points, respectively, while naive rotation INT2 collapses to nearly zero. We further scale OSCAR to Qwen3-32B and GLM-4.7 (358B params), where it remains effectively on par with BF16. On long context - RULER-NIAH up to 128K, OSCAR remains robust on both Qwen3 models, while naive rotation INT2 collapses. System-wise, OSCAR reduces KV-cache memory by approximately 8x, improves throughput by up to 7x at large batch sizes under the same memory budget, and accelerates batch-size-1 decoding by up to 3x over BF16 due to reduced memory bandwidth overhead.