Cuantización Plug-and-Play de Caché KV de 1.x Bits para Modelos de Lenguaje Grande de Video
Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models
March 20, 2025
Autores: Keda Tao, Haoxuan You, Yang Sui, Can Qin, Huan Wang
cs.AI
Resumen
Los modelos de lenguaje de gran tamaño para video (VideoLLMs) han demostrado la capacidad de procesar entradas de video más largas y permitir un razonamiento y análisis complejos. Sin embargo, debido a los miles de tokens visuales provenientes de los fotogramas del video, la caché clave-valor (KV) puede aumentar significativamente los requisitos de memoria, convirtiéndose en un cuello de botella para la velocidad de inferencia y el uso de memoria. La cuantización de la caché KV es un enfoque ampliamente utilizado para abordar este problema. En este artículo, encontramos que la cuantización de 2 bits de la caché KV en VideoLLMs apenas afecta el rendimiento del modelo, mientras que el límite de la cuantización de la caché KV en bits aún más bajos no ha sido investigado. Para cerrar esta brecha, presentamos VidKV, un método de cuantización de caché KV plug-and-play para comprimir la caché KV a menos de 2 bits. Específicamente, (1) para la clave, proponemos una estrategia de cuantización de precisión mixta en la dimensión del canal, donde realizamos cuantización de 2 bits para canales anómalos y cuantización de 1 bit combinada con FFT para canales normales; (2) para el valor, implementamos cuantización de 1.58 bits mientras filtramos selectivamente tokens visuales semánticamente relevantes para su preservación específica, logrando un mejor equilibrio entre precisión y rendimiento del modelo. Es importante destacar que nuestros hallazgos sugieren que la caché de valor de los VideoLLMs debe cuantizarse de manera por canal en lugar de la manera por token propuesta por trabajos previos de cuantización de caché KV para LLMs. Empíricamente, resultados extensos con LLaVA-OV-7B y Qwen2.5-VL-7B en seis benchmarks muestran que VidKV comprime efectivamente la caché KV a precisiones de 1.5 bits y 1.58 bits con casi ninguna caída en el rendimiento en comparación con las versiones FP16.
English
Video large language models (VideoLLMs) have demonstrated the capability to
process longer video inputs and enable complex reasoning and analysis. However,
due to the thousands of visual tokens from the video frames, key-value (KV)
cache can significantly increase memory requirements, becoming a bottleneck for
inference speed and memory usage. KV cache quantization is a widely used
approach to address this problem. In this paper, we find that 2-bit KV
quantization of VideoLLMs can hardly hurt the model performance, while the
limit of KV cache quantization in even lower bits has not been investigated. To
bridge this gap, we introduce VidKV, a plug-and-play KV cache quantization
method to compress the KV cache to lower than 2 bits. Specifically, (1) for
key, we propose a mixed-precision quantization strategy in the channel
dimension, where we perform 2-bit quantization for anomalous channels and 1-bit
quantization combined with FFT for normal channels; (2) for value, we implement
1.58-bit quantization while selectively filtering semantically salient visual
tokens for targeted preservation, for a better trade-off between precision and
model performance. Importantly, our findings suggest that the value cache of
VideoLLMs should be quantized in a per-channel fashion instead of the per-token
fashion proposed by prior KV cache quantization works for LLMs. Empirically,
extensive results with LLaVA-OV-7B and Qwen2.5-VL-7B on six benchmarks show
that VidKV effectively compresses the KV cache to 1.5-bit and 1.58-bit
precision with almost no performance drop compared to the FP16 counterparts.Summary
AI-Generated Summary