StreamingVLM: Comprensione in Tempo Reale per Flussi Video Infiniti

Abstract

I modelli visione-linguaggio (VLMs) potrebbero alimentare assistenti in tempo reale e agenti autonomi, ma affrontano una sfida critica: comprendere flussi video quasi infiniti senza aumentare latenza e utilizzo di memoria. Elaborare interi video con attenzione completa comporta costi computazionali quadratici e prestazioni scadenti su video lunghi. Allo stesso tempo, i semplici metodi a finestra scorrevole sono anch'essi imperfetti, poiché rompono la coerenza o soffrono di alta latenza a causa di ricalcoli ridondanti. In questo articolo, introduciamo StreamingVLM, un modello progettato per la comprensione stabile e in tempo reale di input visivi infiniti. Il nostro approccio è un framework unificato che allinea l'addestramento con l'inferenza in streaming. Durante l'inferenza, manteniamo una cache KV compatta riutilizzando gli stati dei sink di attenzione, una breve finestra di token visivi recenti e una finestra lunga di token testuali recenti. Questa capacità di streaming viene instillata tramite una semplice strategia di fine-tuning supervisionato (SFT) che applica l'attenzione completa su brevi segmenti video sovrapposti, mimando efficacemente il pattern di attenzione al momento dell'inferenza senza addestramento su contesti eccessivamente lunghi. Per la valutazione, abbiamo costruito Inf-Streams-Eval, un nuovo benchmark con video della durata media di oltre due ore che richiede un allineamento denso, al secondo, tra frame e testo. Su Inf-Streams-Eval, StreamingVLM raggiunge un tasso di vittoria del 66,18% contro GPT-4O mini e mantiene prestazioni stabili e in tempo reale fino a 8 FPS su una singola NVIDIA H100. In particolare, la nostra strategia SFT migliora anche le capacità generali di VQA senza alcun fine-tuning specifico per VQA, aumentando le prestazioni su LongVideoBench di +4,30 e su OVOBench Realtime di +5,96. Il codice è disponibile all'indirizzo https://github.com/mit-han-lab/streaming-vlm.

English

Vision-language models (VLMs) could power real-time assistants and autonomous agents, but they face a critical challenge: understanding near-infinite video streams without escalating latency and memory usage. Processing entire videos with full attention leads to quadratic computational costs and poor performance on long videos. Meanwhile, simple sliding window methods are also flawed, as they either break coherence or suffer from high latency due to redundant recomputation. In this paper, we introduce StreamingVLM, a model designed for real-time, stable understanding of infinite visual input. Our approach is a unified framework that aligns training with streaming inference. During inference, we maintain a compact KV cache by reusing states of attention sinks, a short window of recent vision tokens, and a long window of recent text tokens. This streaming ability is instilled via a simple supervised fine-tuning (SFT) strategy that applies full attention on short, overlapped video chunks, which effectively mimics the inference-time attention pattern without training on prohibitively long contexts. For evaluation, we build Inf-Streams-Eval, a new benchmark with videos averaging over two hours that requires dense, per-second alignment between frames and text. On Inf-Streams-Eval, StreamingVLM achieves a 66.18% win rate against GPT-4O mini and maintains stable, real-time performance at up to 8 FPS on a single NVIDIA H100. Notably, our SFT strategy also enhances general VQA abilities without any VQA-specific fine-tuning, improving performance on LongVideoBench by +4.30 and OVOBench Realtime by +5.96. Code is available at https://github.com/mit-han-lab/streaming-vlm.

StreamingVLM: Comprensione in Tempo Reale per Flussi Video Infiniti

StreamingVLM: Real-Time Understanding for Infinite Video Streams

Abstract

Support