VLMs vidéo à mise à l'échelle linéaire pour la compréhension de longues vidéos

Résumé

Les modèles vidéo vision-langage (VLM) sont de plus en plus utilisés dans des contextes à long horizon et en streaming, pourtant la plupart des encodeurs vidéo reposent encore sur l'auto-attention spatiotemporelle, ce qui fait croître quadratiquement le coût de calcul et la latence avec le nombre d'images. Les méthodes d'efficacité existantes améliorent la scalabilité mais perdent souvent en précision par rapport à l'auto-attention complète, par exemple via une suppression agressive d'images ou de tokens ou des approximations grossières de l'attention. Nous introduisons StateKV, une méthode au moment de l'inférence qui adapte les VLM vidéo longs pré-entraînés à un pré-remplissage vidéo en temps linéaire en transportant le contexte inter-images dans un état récurrent à capacité fixe basé sur l'importance, associé à un second cache complet par image utilisé pour le décodage. Sur trois benchmarks vidéo longs et sept modèles couvrant trois familles et plusieurs échelles, StateKV reste proche de l'auto-attention complète et surpasse systématiquement les approximations dominantes basées sur une fenêtre glissante ou la récence, sans nécessiter de fine-tuning ni de modifications architecturales. StateKV réduit également le coût de pré-remplissage vidéo mesuré en FLOPs, permettant une meilleure précision à budget de calcul fixe en exécutant des modèles plus grands. Ces résultats suggèrent une avancée pratique vers une compréhension vidéo longue scalable.

English

Video vision-language models (VLMs) are increasingly used in long-horizon and streaming settings, yet most video encoders still rely on spatiotemporal self-attention, causing compute and latency to grow quadratically with the number of frames. Existing efficiency methods improve scalability but often lose accuracy relative to full self-attention, for example through aggressive frame/token dropping or coarse attention approximations. We introduce StateKV, an inference-time method that adapts pretrained long-video VLMs to linear-time video prefill by carrying cross-frame context in a fixed-capacity, importance-based recurrent state, paired with a second full per-frame cache used for decoding. Across three long-video benchmarks and seven models spanning three families and multiple scales, StateKV remains close to full self-attention and consistently outperforms dominant sliding-window / recency-based streaming approximations, without fine-tuning or architectural changes. StateKV also reduces video-prefill cost measured FLOPs, enabling stronger accuracy at a fixed compute budget by running larger models. These results suggest a practical step toward scalable long-video understanding.