Lineair schalende video-VLMs voor begrip van lange video's

Samenvatting

Video visie-taalmodellen (VLMs) worden steeds vaker gebruikt in langdurige en streaming contexten, maar de meeste video-encoders zijn nog steeds afhankelijk van spatiotemporele zelfaandacht, waardoor rekenkracht en latentie kwadratisch toenemen met het aantal frames. Bestaande efficiëntiemethoden verbeteren de schaalbaarheid, maar verliezen vaak nauwkeurigheid ten opzichte van volledige zelfaandacht, bijvoorbeeld door agressieve frame/token-verwijdering of grove aandachtsbenaderingen. We introduceren StateKV, een inferentietijdmethode die voorgetrainde lange-video VLMs aanpast aan lineaire-tijd videovoorvulling door context tussen frames over te dragen in een vaste-capaciteit, op belangrijkheid gebaseerde recurrente toestand, gekoppeld aan een tweede volledige per-frame cache die wordt gebruikt voor decodering. Op drie lange-video benchmarks en zeven modellen uit drie families en meerdere schalen blijft StateKV dicht bij volledige zelfaandacht en presteert het consistent beter dan dominante schuifvenster/op recency gebaseerde streamingbenaderingen, zonder fine-tuning of architectuurwijzigingen. StateKV vermindert ook de videovoorvullingskosten gemeten in FLOPs, waardoor een sterkere nauwkeurigheid mogelijk wordt bij een vast rekenbudget door grotere modellen in te zetten. Deze resultaten suggereren een praktische stap richting schaalbare lange-video begrip.

English

Video vision-language models (VLMs) are increasingly used in long-horizon and streaming settings, yet most video encoders still rely on spatiotemporal self-attention, causing compute and latency to grow quadratically with the number of frames. Existing efficiency methods improve scalability but often lose accuracy relative to full self-attention, for example through aggressive frame/token dropping or coarse attention approximations. We introduce StateKV, an inference-time method that adapts pretrained long-video VLMs to linear-time video prefill by carrying cross-frame context in a fixed-capacity, importance-based recurrent state, paired with a second full per-frame cache used for decoding. Across three long-video benchmarks and seven models spanning three families and multiple scales, StateKV remains close to full self-attention and consistently outperforms dominant sliding-window / recency-based streaming approximations, without fine-tuning or architectural changes. StateKV also reduces video-prefill cost measured FLOPs, enabling stronger accuracy at a fixed compute budget by running larger models. These results suggest a practical step toward scalable long-video understanding.