StreamingVLM: 무한 비디오 스트림을 위한 실시간 이해
StreamingVLM: Real-Time Understanding for Infinite Video Streams
October 10, 2025
저자: Ruyi Xu, Guangxuan Xiao, Yukang Chen, Liuning He, Kelly Peng, Yao Lu, Song Han
cs.AI
초록
비전-언어 모델(VLMs)은 실시간 어시스턴트와 자율 에이전트를 구동할 수 있지만, 무한에 가까운 비디오 스트림을 이해하면서도 지연 시간과 메모리 사용량을 증가시키지 않는 것이 중요한 과제로 남아 있습니다. 전체 비디오를 완전한 주의(attention)로 처리하면 이차 계산 비용이 발생하고 긴 비디오에서 성능이 저하됩니다. 한편, 단순한 슬라이딩 윈도우 방법도 결함이 있는데, 이는 일관성을 깨거나 중복 재계산으로 인해 높은 지연 시간을 초래합니다. 본 논문에서는 무한한 시각적 입력을 실시간으로 안정적으로 이해하기 위해 설계된 모델인 StreamingVLM을 소개합니다. 우리의 접근 방식은 스트리밍 추론과 훈련을 일치시키는 통합 프레임워크입니다. 추론 과정에서 우리는 주의 싱크(attention sinks)의 상태, 최근 비전 토큰의 짧은 윈도우, 그리고 최근 텍스트 토큰의 긴 윈도우를 재사용하여 컴팩트한 KV 캐시를 유지합니다. 이 스트리밍 능력은 짧고 겹치는 비디오 청크에 대해 완전한 주의를 적용하는 간단한 지도 미세 조정(SFT) 전략을 통해 주입되며, 이는 과도하게 긴 컨텍스트를 훈련하지 않고도 추론 시의 주의 패턴을 효과적으로 모방합니다. 평가를 위해 우리는 평균 2시간 이상의 비디오로 구성된 새로운 벤치마크인 Inf-Streams-Eval을 구축했으며, 이는 프레임과 텍스트 간의 밀집한 초 단위 정렬을 요구합니다. Inf-Streams-Eval에서 StreamingVLM은 GPT-4O mini 대비 66.18%의 승률을 달성했으며, 단일 NVIDIA H100에서 최대 8 FPS의 안정적인 실시간 성능을 유지합니다. 특히, 우리의 SFT 전략은 VQA 특화 미세 조정 없이도 일반적인 VQA 능력을 향상시켜, LongVideoBench에서 +4.30, OVOBench Realtime에서 +5.96의 성능 향상을 이뤘습니다. 코드는 https://github.com/mit-han-lab/streaming-vlm에서 확인할 수 있습니다.
English
Vision-language models (VLMs) could power real-time assistants and autonomous
agents, but they face a critical challenge: understanding near-infinite video
streams without escalating latency and memory usage. Processing entire videos
with full attention leads to quadratic computational costs and poor performance
on long videos. Meanwhile, simple sliding window methods are also flawed, as
they either break coherence or suffer from high latency due to redundant
recomputation. In this paper, we introduce StreamingVLM, a model designed for
real-time, stable understanding of infinite visual input. Our approach is a
unified framework that aligns training with streaming inference. During
inference, we maintain a compact KV cache by reusing states of attention sinks,
a short window of recent vision tokens, and a long window of recent text
tokens. This streaming ability is instilled via a simple supervised fine-tuning
(SFT) strategy that applies full attention on short, overlapped video chunks,
which effectively mimics the inference-time attention pattern without training
on prohibitively long contexts. For evaluation, we build Inf-Streams-Eval, a
new benchmark with videos averaging over two hours that requires dense,
per-second alignment between frames and text. On Inf-Streams-Eval, StreamingVLM
achieves a 66.18% win rate against GPT-4O mini and maintains stable, real-time
performance at up to 8 FPS on a single NVIDIA H100. Notably, our SFT strategy
also enhances general VQA abilities without any VQA-specific fine-tuning,
improving performance on LongVideoBench by +4.30 and OVOBench Realtime by
+5.96. Code is available at https://github.com/mit-han-lab/streaming-vlm.