Plug-and-Play квантование кэша ключей и значений с точностью 1.x бит для видео-ориентированных больших языковых моделей
Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models
March 20, 2025
Авторы: Keda Tao, Haoxuan You, Yang Sui, Can Qin, Huan Wang
cs.AI
Аннотация
Видео-модели с большим языковым контекстом (VideoLLMs) продемонстрировали способность обрабатывать длинные видеовходы и выполнять сложные рассуждения и анализ. Однако из-за тысяч визуальных токенов, извлекаемых из кадров видео, кэш ключей и значений (KV) может значительно увеличить требования к памяти, становясь узким местом для скорости вывода и использования памяти. Квантование кэша KV является широко используемым подходом для решения этой проблемы. В данной работе мы обнаруживаем, что 2-битное квантование кэша KV для VideoLLMs практически не ухудшает производительность модели, в то время как предел квантования кэша KV в ещё меньшем количестве бит не исследовался. Чтобы устранить этот пробел, мы представляем VidKV, метод квантования кэша KV по принципу "подключи и работай", который сжимает кэш KV до менее чем 2 бит. В частности, (1) для ключей мы предлагаем стратегию смешанной точности квантования по канальному измерению, где выполняем 2-битное квантование для аномальных каналов и 1-битное квантование в сочетании с быстрым преобразованием Фурье (FFT) для нормальных каналов; (2) для значений мы реализуем 1.58-битное квантование, при этом избирательно фильтруем семантически значимые визуальные токены для их целенаправленного сохранения, чтобы достичь лучшего баланса между точностью и производительностью модели. Важно отметить, что наши результаты показывают, что кэш значений для VideoLLMs должен квантоваться по канальному принципу, а не по токенному, как предлагалось в предыдущих работах по квантованию кэша KV для LLM. Экспериментально, обширные результаты с моделями LLaVA-OV-7B и Qwen2.5-VL-7B на шести тестовых наборах данных показывают, что VidKV эффективно сжимает кэш KV до 1.5-битной и 1.58-битной точности практически без потери производительности по сравнению с аналогами на FP16.
English
Video large language models (VideoLLMs) have demonstrated the capability to
process longer video inputs and enable complex reasoning and analysis. However,
due to the thousands of visual tokens from the video frames, key-value (KV)
cache can significantly increase memory requirements, becoming a bottleneck for
inference speed and memory usage. KV cache quantization is a widely used
approach to address this problem. In this paper, we find that 2-bit KV
quantization of VideoLLMs can hardly hurt the model performance, while the
limit of KV cache quantization in even lower bits has not been investigated. To
bridge this gap, we introduce VidKV, a plug-and-play KV cache quantization
method to compress the KV cache to lower than 2 bits. Specifically, (1) for
key, we propose a mixed-precision quantization strategy in the channel
dimension, where we perform 2-bit quantization for anomalous channels and 1-bit
quantization combined with FFT for normal channels; (2) for value, we implement
1.58-bit quantization while selectively filtering semantically salient visual
tokens for targeted preservation, for a better trade-off between precision and
model performance. Importantly, our findings suggest that the value cache of
VideoLLMs should be quantized in a per-channel fashion instead of the per-token
fashion proposed by prior KV cache quantization works for LLMs. Empirically,
extensive results with LLaVA-OV-7B and Qwen2.5-VL-7B on six benchmarks show
that VidKV effectively compresses the KV cache to 1.5-bit and 1.58-bit
precision with almost no performance drop compared to the FP16 counterparts.Summary
AI-Generated Summary