Plug-and-Play квантование кэша ключей и значений с точностью 1.x бит для видео-ориентированных больших языковых моделей

Аннотация

Видео-модели с большим языковым контекстом (VideoLLMs) продемонстрировали способность обрабатывать длинные видеовходы и выполнять сложные рассуждения и анализ. Однако из-за тысяч визуальных токенов, извлекаемых из кадров видео, кэш ключей и значений (KV) может значительно увеличить требования к памяти, становясь узким местом для скорости вывода и использования памяти. Квантование кэша KV является широко используемым подходом для решения этой проблемы. В данной работе мы обнаруживаем, что 2-битное квантование кэша KV для VideoLLMs практически не ухудшает производительность модели, в то время как предел квантования кэша KV в ещё меньшем количестве бит не исследовался. Чтобы устранить этот пробел, мы представляем VidKV, метод квантования кэша KV по принципу "подключи и работай", который сжимает кэш KV до менее чем 2 бит. В частности, (1) для ключей мы предлагаем стратегию смешанной точности квантования по канальному измерению, где выполняем 2-битное квантование для аномальных каналов и 1-битное квантование в сочетании с быстрым преобразованием Фурье (FFT) для нормальных каналов; (2) для значений мы реализуем 1.58-битное квантование, при этом избирательно фильтруем семантически значимые визуальные токены для их целенаправленного сохранения, чтобы достичь лучшего баланса между точностью и производительностью модели. Важно отметить, что наши результаты показывают, что кэш значений для VideoLLMs должен квантоваться по канальному принципу, а не по токенному, как предлагалось в предыдущих работах по квантованию кэша KV для LLM. Экспериментально, обширные результаты с моделями LLaVA-OV-7B и Qwen2.5-VL-7B на шести тестовых наборах данных показывают, что VidKV эффективно сжимает кэш KV до 1.5-битной и 1.58-битной точности практически без потери производительности по сравнению с аналогами на FP16.

English

Video large language models (VideoLLMs) have demonstrated the capability to process longer video inputs and enable complex reasoning and analysis. However, due to the thousands of visual tokens from the video frames, key-value (KV) cache can significantly increase memory requirements, becoming a bottleneck for inference speed and memory usage. KV cache quantization is a widely used approach to address this problem. In this paper, we find that 2-bit KV quantization of VideoLLMs can hardly hurt the model performance, while the limit of KV cache quantization in even lower bits has not been investigated. To bridge this gap, we introduce VidKV, a plug-and-play KV cache quantization method to compress the KV cache to lower than 2 bits. Specifically, (1) for key, we propose a mixed-precision quantization strategy in the channel dimension, where we perform 2-bit quantization for anomalous channels and 1-bit quantization combined with FFT for normal channels; (2) for value, we implement 1.58-bit quantization while selectively filtering semantically salient visual tokens for targeted preservation, for a better trade-off between precision and model performance. Importantly, our findings suggest that the value cache of VideoLLMs should be quantized in a per-channel fashion instead of the per-token fashion proposed by prior KV cache quantization works for LLMs. Empirically, extensive results with LLaVA-OV-7B and Qwen2.5-VL-7B on six benchmarks show that VidKV effectively compresses the KV cache to 1.5-bit and 1.58-bit precision with almost no performance drop compared to the FP16 counterparts.

Plug-and-Play квантование кэша ключей и значений с точностью 1.x бит для видео-ориентированных больших языковых моделей

Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

Аннотация

Support