StreamingVLM: Real-time Begrip voor Oneindige Videostreams
StreamingVLM: Real-Time Understanding for Infinite Video Streams
October 10, 2025
Auteurs: Ruyi Xu, Guangxuan Xiao, Yukang Chen, Liuning He, Kelly Peng, Yao Lu, Song Han
cs.AI
Samenvatting
Vision-language models (VLMs) kunnen real-time assistenten en autonome agents aandrijven, maar ze worden geconfronteerd met een kritieke uitdaging: het begrijpen van bijna oneindige videostreams zonder dat de latentie en het geheugengebruik escaleren. Het verwerken van volledige video's met volledige aandacht leidt tot kwadratische rekenkosten en slechte prestaties op lange video's. Eenvoudige sliding window-methoden zijn eveneens gebrekkig, omdat ze ofwel de samenhang verstoren of te lijden hebben onder hoge latentie door overbodige herberekening. In dit artikel introduceren we StreamingVLM, een model ontworpen voor real-time, stabiel begrip van oneindige visuele input. Onze aanpak is een uniform raamwerk dat de training afstemt op streaming inferentie. Tijdens de inferentie behouden we een compacte KV-cache door de staten van attention sinks te hergebruiken, een kort venster van recente visuele tokens en een lang venster van recente teksttokens. Deze streaming-capaciteit wordt ingebracht via een eenvoudige supervised fine-tuning (SFT)-strategie die volledige aandacht toepast op korte, overlappende videofragmenten, wat effectief het aandachtspatroon tijdens inferentie nabootst zonder training op onpraktisch lange contexten. Voor evaluatie hebben we Inf-Streams-Eval gebouwd, een nieuwe benchmark met video's van gemiddeld meer dan twee uur die een dichte, per seconde afstemming tussen frames en tekst vereist. Op Inf-Streams-Eval behaalt StreamingVLM een winstpercentage van 66,18% tegen GPT-4O mini en behoudt stabiele, real-time prestaties tot 8 FPS op een enkele NVIDIA H100. Opmerkelijk is dat onze SFT-strategie ook de algemene VQA-vaardigheden verbetert zonder enige VQA-specifieke fine-tuning, met prestatieverbeteringen van +4,30 op LongVideoBench en +5,96 op OVOBench Realtime. Code is beschikbaar op https://github.com/mit-han-lab/streaming-vlm.
English
Vision-language models (VLMs) could power real-time assistants and autonomous
agents, but they face a critical challenge: understanding near-infinite video
streams without escalating latency and memory usage. Processing entire videos
with full attention leads to quadratic computational costs and poor performance
on long videos. Meanwhile, simple sliding window methods are also flawed, as
they either break coherence or suffer from high latency due to redundant
recomputation. In this paper, we introduce StreamingVLM, a model designed for
real-time, stable understanding of infinite visual input. Our approach is a
unified framework that aligns training with streaming inference. During
inference, we maintain a compact KV cache by reusing states of attention sinks,
a short window of recent vision tokens, and a long window of recent text
tokens. This streaming ability is instilled via a simple supervised fine-tuning
(SFT) strategy that applies full attention on short, overlapped video chunks,
which effectively mimics the inference-time attention pattern without training
on prohibitively long contexts. For evaluation, we build Inf-Streams-Eval, a
new benchmark with videos averaging over two hours that requires dense,
per-second alignment between frames and text. On Inf-Streams-Eval, StreamingVLM
achieves a 66.18% win rate against GPT-4O mini and maintains stable, real-time
performance at up to 8 FPS on a single NVIDIA H100. Notably, our SFT strategy
also enhances general VQA abilities without any VQA-specific fine-tuning,
improving performance on LongVideoBench by +4.30 and OVOBench Realtime by
+5.96. Code is available at https://github.com/mit-han-lab/streaming-vlm.