Video-VLMs mit linearer Skalierung für das Verständnis langer Videos

Zusammenfassung

Video-Sprachmodelle (VLMs) werden zunehmend in langfristigen und kontinuierlichen Szenarien eingesetzt, dennoch stützen sich die meisten Video-Encoder weiterhin auf räumlich-zeitliche Selbstaufmerksamkeit, was dazu führt, dass Rechenaufwand und Latenz quadratisch mit der Anzahl der Frames wachsen. Bestehende Effizienzmethoden verbessern die Skalierbarkeit, verlieren jedoch oft an Genauigkeit im Vergleich zur vollständigen Selbstaufmerksamkeit, beispielsweise durch aggressives Frame-/Token-Dropping oder grobe Aufmerksamkeitsnäherungen. Wir stellen StateKV vor, eine Inferenzzeitmethode, die vortrainierte Langvideo-VLMs für ein lineares Video-Prefill adaptiert, indem sie kontextübergreifende Informationen in einem zustandsbasierten, auf Wichtigkeit basierenden rekurrenten Zustand mit fester Kapazität trägt, gepaart mit einem zweiten vollständigen Frame-Cache für die Dekodierung. Über drei Langvideo-Benchmarks und sieben Modelle aus drei Familien und mehreren Skalen hinweg bleibt StateKV nah an der vollständigen Selbstaufmerksamkeit und übertrifft durchgängig dominante gleitende Fenster- und aktualitätsbasierte Streaming-Näherungen, ohne Feintuning oder Architekturänderungen. StateKV reduziert zudem die anhand von FLOPs gemessenen Kosten des Video-Prefills, was eine stärkere Genauigkeit bei festem Rechenbudget durch den Einsatz größerer Modelle ermöglicht. Diese Ergebnisse deuten auf einen praktischen Schritt in Richtung skalierbares Langvideo-Verständnis hin.

English

Video vision-language models (VLMs) are increasingly used in long-horizon and streaming settings, yet most video encoders still rely on spatiotemporal self-attention, causing compute and latency to grow quadratically with the number of frames. Existing efficiency methods improve scalability but often lose accuracy relative to full self-attention, for example through aggressive frame/token dropping or coarse attention approximations. We introduce StateKV, an inference-time method that adapts pretrained long-video VLMs to linear-time video prefill by carrying cross-frame context in a fixed-capacity, importance-based recurrent state, paired with a second full per-frame cache used for decoding. Across three long-video benchmarks and seven models spanning three families and multiple scales, StateKV remains close to full self-attention and consistently outperforms dominant sliding-window / recency-based streaming approximations, without fine-tuning or architectural changes. StateKV also reduces video-prefill cost measured FLOPs, enabling stronger accuracy at a fixed compute budget by running larger models. These results suggest a practical step toward scalable long-video understanding.