OScaR: A Navalha de Occam para Quantização Extrema de Cache KV em LLMs e Além

Resumo

O rápido avanço em direção ao raciocínio de contexto longo e à inteligência multimodal tornou a pegada de memória do cache de Chave-Valor (KV) um gargalo de memória dominante para a implantação eficiente. Embora a quantização estabelecida por canal acomode efetivamente outliers intrínsecos por canal nos tensores de Chave, sua eficácia diminui sob compressão extrema. Neste trabalho, revisitamos as limitações inerentes ao paradigma de quantização por canal a partir de perspectivas empíricas e teóricas. Nossa análise identifica o Desequilíbrio de Norma de Token (TNI) como o principal gargalo para a fidelidade da quantização. Demonstramos que o TNI amplifica sistematicamente erros quando parâmetros de quantização compartilhados precisam abranger grupos de tokens que exibem disparidades substanciais de norma. Em vez de depender de pipelines de quantização complexas (ex.: TurboQuant), propomos o OScaR (Rotação Canalizada com Escalonamento Omni), uma estrutura precisa e leve de compressão de cache KV para X-LLMs (ou seja, LLMs apenas de texto, multimodais e omnimodais). Avançando o paradigma por canal, o OScaR emprega Rotação Canalizada seguida de Escalonamento Omni-Token para mitigar a variância dimensional de sequência induzida pelo TNI de forma eficaz e eficiente, apoiado adicionalmente por nosso design otimizado de sistema e kernels CUDA. Avaliações extensas em X-LLMs mostram que o OScaR supera consistentemente os métodos existentes e alcança desempenho quase sem perdas sob quantização INT2, estabelecendo-o como uma estrutura robusta, de baixa complexidade e universal que define uma nova fronteira de Pareto. Em comparação com a linha de base BF16 FlashDecoding-v2, nossa implementação OScaR alcança um notável speedup de até 3,0x na decodificação, reduz a pegada de memória em 5,3x e aumenta a taxa de transferência em 4,1x. O código do OScaR está disponível publicamente em https://github.com/ZunhaiSu/OScaR-KV-Quant.

English

The rapid advancement toward long-context reasoning and multi-modal intelligence has made the memory footprint of the Key-Value (KV) cache a dominant memory bottleneck for efficient deployment. While the established per-channel quantization effectively accommodates intrinsic channel-wise outliers in Key tensors, its efficacy diminishes under extreme compression. In this work, we revisit the inherent limitations of the per-channel quantization paradigm from both empirical and theoretical perspectives. Our analysis identifies Token Norm Imbalance (TNI) as the primary bottleneck to quantization fidelity. We demonstrate that TNI systematically amplifies errors when shared quantization parameters are required to span token groups exhibiting substantial norm disparities. Instead of relying on intricate quantization pipelines (e.g., TurboQuant), we propose OScaR (Omni-Scaled Canalized Rotation), an accurate and lightweight KV cache compression framework for X-LLMs (i.e., text-only, multi-modal, and omni-modal LLMs). Advancing the per-channel paradigm, OScaR employs Canalized Rotation followed by Omni-Token Scaling to mitigate TNI-induced sequence-dimensional variance both effectively and efficiently, further supported by our optimized system design and CUDA kernels. Extensive evaluations across X-LLMs show that OScaR consistently outperforms existing methods and achieves near-lossless performance under INT2 quantization, establishing it as a robust, low-complexity, and universal framework that defines a new Pareto front. Compared with the BF16 FlashDecoding-v2 baseline, our OScaR implementation achieves a notable up to 3.0x speedup in decoding, reduces memory footprint by 5.3x, and increases throughput by 4.1x. The code for OScaR is publicly available at https://github.com/ZunhaiSu/OScaR-KV-Quant.