OScaR: Бритва Оккама для экстремального квантования KV-кэша в LLM и не только

Аннотация

Стремительное развитие в направлении долгоконтекстного рассуждения и мультимодального интеллекта сделало объем памяти, занимаемый кешем ключ-значение (KV), основным узким местом для эффективного развертывания. Хотя устоявшееся поканальное квантование эффективно справляется с внутренними канальными выбросами в тензорах Key, его эффективность снижается при экстремальном сжатии. В данной работе мы пересматриваем внутренние ограничения парадигмы поканального квантования как с эмпирической, так и с теоретической точек зрения. Наш анализ выявляет дисбаланс нормы токенов (Token Norm Imbalance, TNI) как основное узкое место для точности квантования. Мы демонстрируем, что TNI систематически усиливает ошибки, когда общие параметры квантования должны охватывать группы токенов, демонстрирующие существенные различия в нормах. Вместо того чтобы полагаться на сложные конвейеры квантования (например, TurboQuant), мы предлагаем OScaR (Omni-Scaled Canalized Rotation) — точную и легковесную структуру сжатия кеша KV для X-LLM (т.е. текстовых, мультимодальных и омнимодальных LLM). Развивая поканальную парадигму, OScaR использует Canalized Rotation с последующим Omni-Token Scaling для эффективного и действенного смягчения вариативности по последовательному измерению, вызванной TNI, что дополнительно поддерживается нашей оптимизированной системной архитектурой и ядрами CUDA. Обширные оценки на X-LLM показывают, что OScaR последовательно превосходит существующие методы и достигает почти безошибочной производительности при квантовании INT2, утверждая себя как надежную, малосложную и универсальную структуру, определяющую новый фронт Парето. По сравнению с базовым уровнем BF16 FlashDecoding-v2 наша реализация OScaR достигает заметного ускорения декодирования до 3,0 раз, снижает объем памяти в 5,3 раза и увеличивает пропускную способность в 4,1 раза. Код OScaR доступен по адресу https://github.com/ZunhaiSu/OScaR-KV-Quant.

English

The rapid advancement toward long-context reasoning and multi-modal intelligence has made the memory footprint of the Key-Value (KV) cache a dominant memory bottleneck for efficient deployment. While the established per-channel quantization effectively accommodates intrinsic channel-wise outliers in Key tensors, its efficacy diminishes under extreme compression. In this work, we revisit the inherent limitations of the per-channel quantization paradigm from both empirical and theoretical perspectives. Our analysis identifies Token Norm Imbalance (TNI) as the primary bottleneck to quantization fidelity. We demonstrate that TNI systematically amplifies errors when shared quantization parameters are required to span token groups exhibiting substantial norm disparities. Instead of relying on intricate quantization pipelines (e.g., TurboQuant), we propose OScaR (Omni-Scaled Canalized Rotation), an accurate and lightweight KV cache compression framework for X-LLMs (i.e., text-only, multi-modal, and omni-modal LLMs). Advancing the per-channel paradigm, OScaR employs Canalized Rotation followed by Omni-Token Scaling to mitigate TNI-induced sequence-dimensional variance both effectively and efficiently, further supported by our optimized system design and CUDA kernels. Extensive evaluations across X-LLMs show that OScaR consistently outperforms existing methods and achieves near-lossless performance under INT2 quantization, establishing it as a robust, low-complexity, and universal framework that defines a new Pareto front. Compared with the BF16 FlashDecoding-v2 baseline, our OScaR implementation achieves a notable up to 3.0x speedup in decoding, reduces memory footprint by 5.3x, and increases throughput by 4.1x. The code for OScaR is publicly available at https://github.com/ZunhaiSu/OScaR-KV-Quant.