Линейное масштабирование видео VLM для понимания длинных видео

Аннотация

Видео-языковые модели (VLM) всё чаще применяются в сценариях с длинным горизонтом и потоковой передачей, однако большинство видеоэнкодеров по-прежнему полагаются на пространственно-временное самовнимание, из-за чего вычислительные затраты и задержка растут квадратично с увеличением числа кадров. Существующие методы повышения эффективности улучшают масштабируемость, но часто теряют в точности по сравнению с полным самовниманием — например, за счёт агрессивного отбрасывания кадров/токенов или грубых аппроксимаций внимания. Мы представляем StateKV — метод времени вывода, адаптирующий предварительно обученные VLM для длинных видео к линейной по времени предварительной загрузке видео за счёт переноса межкадрового контекста в рекуррентное состояние фиксированной ёмкости, основанное на важности, в паре со вторым полным покадровым кэшем, используемым для декодирования. На трёх эталонных тестах длинных видео и семи моделях, охватывающих три семейства и несколько масштабов, StateKV остаётся близок к полному самовниманию и стабильно превосходит доминирующие аппроксимации потоковой передачи на основе скользящего окна/недавности без тонкой настройки или изменений архитектуры. StateKV также снижает затраты на предварительную загрузку видео, измеряемые в FLOPs, что позволяет добиться большей точности при фиксированном вычислительном бюджете за счёт запуска более крупных моделей. Эти результаты указывают на практический шаг к масштабируемому пониманию длинных видео.

English

Video vision-language models (VLMs) are increasingly used in long-horizon and streaming settings, yet most video encoders still rely on spatiotemporal self-attention, causing compute and latency to grow quadratically with the number of frames. Existing efficiency methods improve scalability but often lose accuracy relative to full self-attention, for example through aggressive frame/token dropping or coarse attention approximations. We introduce StateKV, an inference-time method that adapts pretrained long-video VLMs to linear-time video prefill by carrying cross-frame context in a fixed-capacity, importance-based recurrent state, paired with a second full per-frame cache used for decoding. Across three long-video benchmarks and seven models spanning three families and multiple scales, StateKV remains close to full self-attention and consistently outperforms dominant sliding-window / recency-based streaming approximations, without fine-tuning or architectural changes. StateKV also reduces video-prefill cost measured FLOPs, enabling stronger accuracy at a fixed compute budget by running larger models. These results suggest a practical step toward scalable long-video understanding.