Cuantización Plug-and-Play de Caché KV de 1.x Bits para Modelos de Lenguaje Grande de Video

Resumen

Los modelos de lenguaje de gran tamaño para video (VideoLLMs) han demostrado la capacidad de procesar entradas de video más largas y permitir un razonamiento y análisis complejos. Sin embargo, debido a los miles de tokens visuales provenientes de los fotogramas del video, la caché clave-valor (KV) puede aumentar significativamente los requisitos de memoria, convirtiéndose en un cuello de botella para la velocidad de inferencia y el uso de memoria. La cuantización de la caché KV es un enfoque ampliamente utilizado para abordar este problema. En este artículo, encontramos que la cuantización de 2 bits de la caché KV en VideoLLMs apenas afecta el rendimiento del modelo, mientras que el límite de la cuantización de la caché KV en bits aún más bajos no ha sido investigado. Para cerrar esta brecha, presentamos VidKV, un método de cuantización de caché KV plug-and-play para comprimir la caché KV a menos de 2 bits. Específicamente, (1) para la clave, proponemos una estrategia de cuantización de precisión mixta en la dimensión del canal, donde realizamos cuantización de 2 bits para canales anómalos y cuantización de 1 bit combinada con FFT para canales normales; (2) para el valor, implementamos cuantización de 1.58 bits mientras filtramos selectivamente tokens visuales semánticamente relevantes para su preservación específica, logrando un mejor equilibrio entre precisión y rendimiento del modelo. Es importante destacar que nuestros hallazgos sugieren que la caché de valor de los VideoLLMs debe cuantizarse de manera por canal en lugar de la manera por token propuesta por trabajos previos de cuantización de caché KV para LLMs. Empíricamente, resultados extensos con LLaVA-OV-7B y Qwen2.5-VL-7B en seis benchmarks muestran que VidKV comprime efectivamente la caché KV a precisiones de 1.5 bits y 1.58 bits con casi ninguna caída en el rendimiento en comparación con las versiones FP16.

English

Video large language models (VideoLLMs) have demonstrated the capability to process longer video inputs and enable complex reasoning and analysis. However, due to the thousands of visual tokens from the video frames, key-value (KV) cache can significantly increase memory requirements, becoming a bottleneck for inference speed and memory usage. KV cache quantization is a widely used approach to address this problem. In this paper, we find that 2-bit KV quantization of VideoLLMs can hardly hurt the model performance, while the limit of KV cache quantization in even lower bits has not been investigated. To bridge this gap, we introduce VidKV, a plug-and-play KV cache quantization method to compress the KV cache to lower than 2 bits. Specifically, (1) for key, we propose a mixed-precision quantization strategy in the channel dimension, where we perform 2-bit quantization for anomalous channels and 1-bit quantization combined with FFT for normal channels; (2) for value, we implement 1.58-bit quantization while selectively filtering semantically salient visual tokens for targeted preservation, for a better trade-off between precision and model performance. Importantly, our findings suggest that the value cache of VideoLLMs should be quantized in a per-channel fashion instead of the per-token fashion proposed by prior KV cache quantization works for LLMs. Empirically, extensive results with LLaVA-OV-7B and Qwen2.5-VL-7B on six benchmarks show that VidKV effectively compresses the KV cache to 1.5-bit and 1.58-bit precision with almost no performance drop compared to the FP16 counterparts.

Cuantización Plug-and-Play de Caché KV de 1.x Bits para Modelos de Lenguaje Grande de Video

Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

Resumen

Support