OSCAR: Офлайн поворот с учётом спектральной ковариации для 2-битной квантизации KV-кэша

Аннотация

Квантование KV-кэша с разрядностью INT2 привлекательно для обслуживания LLM с длинным контекстом, однако по-прежнему сложно сделать его одновременно точным и пригодным для развёртывания. Простые вращения, такие как преобразования Адамара, уменьшают выбросы, но всё равно приводят к ухудшению качества при INT2, поскольку они не согласованы с последующим механизмом внимания. Мы предлагаем OSCAR — метод ультранизкобитного квантования KV-кэша, который оценивает ковариационные структуры, учитывающие внимание, в автономном режиме и использует их для получения фиксированных вращений и порогов отсечения при квантовании. Таким образом, он согласует KV-квантование с ковариационными структурами, которые фактически потребляются вниманием. Более того, мы не только предоставляем теоретическое обоснование, но и разрабатываем полностью развёртываемую систему OSCAR с пользовательским ядром INT2-внимания, которое остаётся совместимым со страничным обслуживанием KV-кэша и конвейерными ядрами слияния, обеспечивая бесшовную интеграцию в современные фреймворки обслуживания LLM, такие как SGLang и vLLM. Мы оцениваем наши методы на современных моделях рассуждений с цепочками рассуждений длиной до 32 тыс. токенов по 5 задачам. На Qwen3-4B-Thinking-2507 и Qwen3-8B OSCAR сокращает разницу точности с BF16 до 3,78 и 1,42 пункта соответственно, в то время как наивное INT2-вращение приводит к почти нулевой точности. Мы дополнительно масштабируем OSCAR на Qwen3-32B и GLM-4.7 (358 млрд параметров), где он остаётся практически на уровне BF16. На длинном контексте (RULER-NIAH до 128K) OSCAR остаётся устойчивым на обеих моделях Qwen3, тогда как наивное INT2-вращение приводит к коллапсу. С системной точки зрения, OSCAR уменьшает объём памяти KV-кэша примерно в 8 раз, повышает пропускную способность до 7 раз при больших размерах пакетов в условиях одного бюджета памяти и ускоряет декодирование с размером пакета 1 до 3 раз по сравнению с BF16 за счёт снижения накладных расходов на пропускную способность памяти.

English

INT2 KV-cache quantization is attractive for long-context LLM serving, but it remains difficult to make both accurate and deployable. Simple rotations such as Hadamard transforms reduce outliers, but still degrade at INT2 because they are not aligned with downstream attention. We propose OSCAR, an Ultra-low-bit KV Cache quantization method that estimates attention-aware covariance structures offline and uses them to derive fixed rotations and clipping thresholds for quantization. In this way, it aligns KV quantization with the covariance structures that attention actually consumes. More importantly, we not only provide theoretical justification but also develop a fully deployable OSCAR system with a custom INT2 attention kernel that remains compatible with paged KV-cache serving and fused kernel pipelines, enabling seamless integration into modern LLM serving frameworks such as SGLang and vLLM. We evaluate our methods on recent reasoning models with reasoning traces of up to 32k tokens across 5 tasks. On Qwen3-4B-Thinking-2507 and Qwen3-8B, OSCAR reduces the BF16 accuracy gap to 3.78 and 1.42 points, respectively, while naive rotation INT2 collapses to nearly zero. We further scale OSCAR to Qwen3-32B and GLM-4.7 (358B params), where it remains effectively on par with BF16. On long context - RULER-NIAH up to 128K, OSCAR remains robust on both Qwen3 models, while naive rotation INT2 collapses. System-wise, OSCAR reduces KV-cache memory by approximately 8x, improves throughput by up to 7x at large batch sizes under the same memory budget, and accelerates batch-size-1 decoding by up to 3x over BF16 due to reduced memory bandwidth overhead.