Escalado Lineal de VLMs de Video para la Comprensión de Videos Largos

Resumen

Los modelos de visión-lenguaje de video (VLMs) se utilizan cada vez más en entornos de largo horizonte y transmisión continua, aunque la mayoría de los codificadores de video aún dependen de la autoatención espaciotemporal, lo que provoca que el cómputo y la latencia crezcan de forma cuadrática con el número de fotogramas. Los métodos de eficiencia existentes mejoran la escalabilidad pero a menudo pierden precisión en comparación con la autoatención completa, por ejemplo mediante la eliminación agresiva de fotogramas/tokens o aproximaciones gruesas de atención. Presentamos StateKV, un método en tiempo de inferencia que adapta VLMs de videos largos preentrenados al precargado de video en tiempo lineal, transportando el contexto entre fotogramas en un estado recurrente de capacidad fija basado en importancia, emparejado con una segunda caché completa por fotograma utilizada para decodificación. En tres puntos de referencia de videos largos y siete modelos que abarcan tres familias y múltiples escalas, StateKV se mantiene cerca de la autoatención completa y supera consistentemente las aproximaciones dominantes de ventana deslizante / basadas en actualidad, sin necesidad de ajuste fino ni cambios arquitectónicos. StateKV también reduce el costo de precargado de video medido en FLOPs, permitiendo una mayor precisión con un presupuesto de cómputo fijo al ejecutar modelos más grandes. Estos resultados sugieren un paso práctico hacia la comprensión escalable de videos largos.

English

Video vision-language models (VLMs) are increasingly used in long-horizon and streaming settings, yet most video encoders still rely on spatiotemporal self-attention, causing compute and latency to grow quadratically with the number of frames. Existing efficiency methods improve scalability but often lose accuracy relative to full self-attention, for example through aggressive frame/token dropping or coarse attention approximations. We introduce StateKV, an inference-time method that adapts pretrained long-video VLMs to linear-time video prefill by carrying cross-frame context in a fixed-capacity, importance-based recurrent state, paired with a second full per-frame cache used for decoding. Across three long-video benchmarks and seven models spanning three families and multiple scales, StateKV remains close to full self-attention and consistently outperforms dominant sliding-window / recency-based streaming approximations, without fine-tuning or architectural changes. StateKV also reduces video-prefill cost measured FLOPs, enabling stronger accuracy at a fixed compute budget by running larger models. These results suggest a practical step toward scalable long-video understanding.