StreamingVLM: Comprensione in Tempo Reale per Flussi Video Infiniti
StreamingVLM: Real-Time Understanding for Infinite Video Streams
October 10, 2025
Autori: Ruyi Xu, Guangxuan Xiao, Yukang Chen, Liuning He, Kelly Peng, Yao Lu, Song Han
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) potrebbero alimentare assistenti in tempo reale e agenti autonomi, ma affrontano una sfida critica: comprendere flussi video quasi infiniti senza aumentare latenza e utilizzo di memoria. Elaborare interi video con attenzione completa comporta costi computazionali quadratici e prestazioni scadenti su video lunghi. Allo stesso tempo, i semplici metodi a finestra scorrevole sono anch'essi imperfetti, poiché rompono la coerenza o soffrono di alta latenza a causa di ricalcoli ridondanti. In questo articolo, introduciamo StreamingVLM, un modello progettato per la comprensione stabile e in tempo reale di input visivi infiniti. Il nostro approccio è un framework unificato che allinea l'addestramento con l'inferenza in streaming. Durante l'inferenza, manteniamo una cache KV compatta riutilizzando gli stati dei sink di attenzione, una breve finestra di token visivi recenti e una finestra lunga di token testuali recenti. Questa capacità di streaming viene instillata tramite una semplice strategia di fine-tuning supervisionato (SFT) che applica l'attenzione completa su brevi segmenti video sovrapposti, mimando efficacemente il pattern di attenzione al momento dell'inferenza senza addestramento su contesti eccessivamente lunghi. Per la valutazione, abbiamo costruito Inf-Streams-Eval, un nuovo benchmark con video della durata media di oltre due ore che richiede un allineamento denso, al secondo, tra frame e testo. Su Inf-Streams-Eval, StreamingVLM raggiunge un tasso di vittoria del 66,18% contro GPT-4O mini e mantiene prestazioni stabili e in tempo reale fino a 8 FPS su una singola NVIDIA H100. In particolare, la nostra strategia SFT migliora anche le capacità generali di VQA senza alcun fine-tuning specifico per VQA, aumentando le prestazioni su LongVideoBench di +4,30 e su OVOBench Realtime di +5,96. Il codice è disponibile all'indirizzo https://github.com/mit-han-lab/streaming-vlm.
English
Vision-language models (VLMs) could power real-time assistants and autonomous
agents, but they face a critical challenge: understanding near-infinite video
streams without escalating latency and memory usage. Processing entire videos
with full attention leads to quadratic computational costs and poor performance
on long videos. Meanwhile, simple sliding window methods are also flawed, as
they either break coherence or suffer from high latency due to redundant
recomputation. In this paper, we introduce StreamingVLM, a model designed for
real-time, stable understanding of infinite visual input. Our approach is a
unified framework that aligns training with streaming inference. During
inference, we maintain a compact KV cache by reusing states of attention sinks,
a short window of recent vision tokens, and a long window of recent text
tokens. This streaming ability is instilled via a simple supervised fine-tuning
(SFT) strategy that applies full attention on short, overlapped video chunks,
which effectively mimics the inference-time attention pattern without training
on prohibitively long contexts. For evaluation, we build Inf-Streams-Eval, a
new benchmark with videos averaging over two hours that requires dense,
per-second alignment between frames and text. On Inf-Streams-Eval, StreamingVLM
achieves a 66.18% win rate against GPT-4O mini and maintains stable, real-time
performance at up to 8 FPS on a single NVIDIA H100. Notably, our SFT strategy
also enhances general VQA abilities without any VQA-specific fine-tuning,
improving performance on LongVideoBench by +4.30 and OVOBench Realtime by
+5.96. Code is available at https://github.com/mit-han-lab/streaming-vlm.