StreamingVLM: Real-time Begrip voor Oneindige Videostreams

Samenvatting

Vision-language models (VLMs) kunnen real-time assistenten en autonome agents aandrijven, maar ze worden geconfronteerd met een kritieke uitdaging: het begrijpen van bijna oneindige videostreams zonder dat de latentie en het geheugengebruik escaleren. Het verwerken van volledige video's met volledige aandacht leidt tot kwadratische rekenkosten en slechte prestaties op lange video's. Eenvoudige sliding window-methoden zijn eveneens gebrekkig, omdat ze ofwel de samenhang verstoren of te lijden hebben onder hoge latentie door overbodige herberekening. In dit artikel introduceren we StreamingVLM, een model ontworpen voor real-time, stabiel begrip van oneindige visuele input. Onze aanpak is een uniform raamwerk dat de training afstemt op streaming inferentie. Tijdens de inferentie behouden we een compacte KV-cache door de staten van attention sinks te hergebruiken, een kort venster van recente visuele tokens en een lang venster van recente teksttokens. Deze streaming-capaciteit wordt ingebracht via een eenvoudige supervised fine-tuning (SFT)-strategie die volledige aandacht toepast op korte, overlappende videofragmenten, wat effectief het aandachtspatroon tijdens inferentie nabootst zonder training op onpraktisch lange contexten. Voor evaluatie hebben we Inf-Streams-Eval gebouwd, een nieuwe benchmark met video's van gemiddeld meer dan twee uur die een dichte, per seconde afstemming tussen frames en tekst vereist. Op Inf-Streams-Eval behaalt StreamingVLM een winstpercentage van 66,18% tegen GPT-4O mini en behoudt stabiele, real-time prestaties tot 8 FPS op een enkele NVIDIA H100. Opmerkelijk is dat onze SFT-strategie ook de algemene VQA-vaardigheden verbetert zonder enige VQA-specifieke fine-tuning, met prestatieverbeteringen van +4,30 op LongVideoBench en +5,96 op OVOBench Realtime. Code is beschikbaar op https://github.com/mit-han-lab/streaming-vlm.

English

Vision-language models (VLMs) could power real-time assistants and autonomous agents, but they face a critical challenge: understanding near-infinite video streams without escalating latency and memory usage. Processing entire videos with full attention leads to quadratic computational costs and poor performance on long videos. Meanwhile, simple sliding window methods are also flawed, as they either break coherence or suffer from high latency due to redundant recomputation. In this paper, we introduce StreamingVLM, a model designed for real-time, stable understanding of infinite visual input. Our approach is a unified framework that aligns training with streaming inference. During inference, we maintain a compact KV cache by reusing states of attention sinks, a short window of recent vision tokens, and a long window of recent text tokens. This streaming ability is instilled via a simple supervised fine-tuning (SFT) strategy that applies full attention on short, overlapped video chunks, which effectively mimics the inference-time attention pattern without training on prohibitively long contexts. For evaluation, we build Inf-Streams-Eval, a new benchmark with videos averaging over two hours that requires dense, per-second alignment between frames and text. On Inf-Streams-Eval, StreamingVLM achieves a 66.18% win rate against GPT-4O mini and maintains stable, real-time performance at up to 8 FPS on a single NVIDIA H100. Notably, our SFT strategy also enhances general VQA abilities without any VQA-specific fine-tuning, improving performance on LongVideoBench by +4.30 and OVOBench Realtime by +5.96. Code is available at https://github.com/mit-han-lab/streaming-vlm.

StreamingVLM: Real-time Begrip voor Oneindige Videostreams

StreamingVLM: Real-Time Understanding for Infinite Video Streams

Samenvatting

Support