OSCAR : Rotation hors ligne consciente de la covariance spectrale pour la quantification du cache KV sur 2 bits

Résumé

L'INT2 KV-cache quantization est attrayante pour le service de LLM à long contexte, mais il reste difficile de la rendre à la fois précise et déployable. Les rotations simples comme les transformées de Hadamard réduisent les valeurs aberrantes, mais se dégradent encore à INT2 car elles ne sont pas alignées sur l'attention en aval. Nous proposons OSCAR, une méthode de quantification du cache KV à ultra-faible précision qui estime les structures de covariance sensibles à l'attention hors ligne et les utilise pour dériver des rotations fixes et des seuils d'écrêtage pour la quantification. Ainsi, elle aligne la quantification KV avec les structures de covariance que l'attention consomme réellement. Plus important encore, nous ne fournissons pas seulement une justification théorique, mais développons également un système OSCAR entièrement déployable avec un noyau d'attention INT2 personnalisé qui reste compatible avec le service de cache KV paginé et les pipelines de noyaux fusionnés, permettant une intégration transparente dans les frameworks modernes de service LLM tels que SGLang et vLLM. Nous évaluons nos méthodes sur des modèles de raisonnement récents avec des traces de raisonnement allant jusqu'à 32k tokens sur 5 tâches. Sur Qwen3-4B-Thinking-2507 et Qwen3-8B, OSCAR réduit l'écart de précision BF16 à respectivement 3,78 et 1,42 points, tandis que la rotation INT2 naïve s'effondre à presque zéro. Nous étendons en outre OSCAR à Qwen3-32B et GLM-4.7 (358B paramètres), où il reste efficacement au même niveau que le BF16. Sur le contexte long - RULER-NIAH jusqu'à 128K, OSCAR reste robuste sur les deux modèles Qwen3, tandis que la rotation INT2 naïve s'effondre. Du point de vue système, OSCAR réduit la mémoire du cache KV d'environ 8x, améliore le débit jusqu'à 7x pour les grandes tailles de lots sous la même contrainte mémoire et accélère le décodage à taille de lot 1 jusqu'à 3x par rapport au BF16 grâce à une réduction de la surcharge de bande passante mémoire.

English

INT2 KV-cache quantization is attractive for long-context LLM serving, but it remains difficult to make both accurate and deployable. Simple rotations such as Hadamard transforms reduce outliers, but still degrade at INT2 because they are not aligned with downstream attention. We propose OSCAR, an Ultra-low-bit KV Cache quantization method that estimates attention-aware covariance structures offline and uses them to derive fixed rotations and clipping thresholds for quantization. In this way, it aligns KV quantization with the covariance structures that attention actually consumes. More importantly, we not only provide theoretical justification but also develop a fully deployable OSCAR system with a custom INT2 attention kernel that remains compatible with paged KV-cache serving and fused kernel pipelines, enabling seamless integration into modern LLM serving frameworks such as SGLang and vLLM. We evaluate our methods on recent reasoning models with reasoning traces of up to 32k tokens across 5 tasks. On Qwen3-4B-Thinking-2507 and Qwen3-8B, OSCAR reduces the BF16 accuracy gap to 3.78 and 1.42 points, respectively, while naive rotation INT2 collapses to nearly zero. We further scale OSCAR to Qwen3-32B and GLM-4.7 (358B params), where it remains effectively on par with BF16. On long context - RULER-NIAH up to 128K, OSCAR remains robust on both Qwen3 models, while naive rotation INT2 collapses. System-wise, OSCAR reduces KV-cache memory by approximately 8x, improves throughput by up to 7x at large batch sizes under the same memory budget, and accelerates batch-size-1 decoding by up to 3x over BF16 due to reduced memory bandwidth overhead.