StreamingVLM: Comprensión en Tiempo Real para Flujos de Video Infinitos
StreamingVLM: Real-Time Understanding for Infinite Video Streams
October 10, 2025
Autores: Ruyi Xu, Guangxuan Xiao, Yukang Chen, Liuning He, Kelly Peng, Yao Lu, Song Han
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) podrían impulsar asistentes en tiempo real y agentes autónomos, pero enfrentan un desafío crítico: comprender flujos de video casi infinitos sin aumentar la latencia y el uso de memoria. Procesar videos completos con atención plena conlleva costos computacionales cuadráticos y un rendimiento deficiente en videos largos. Por otro lado, los métodos simples de ventana deslizante también tienen fallas, ya que o bien rompen la coherencia o sufren de alta latencia debido a la recomputación redundante. En este artículo, presentamos StreamingVLM, un modelo diseñado para la comprensión estable y en tiempo real de entradas visuales infinitas. Nuestro enfoque es un marco unificado que alinea el entrenamiento con la inferencia en streaming. Durante la inferencia, mantenemos una caché KV compacta reutilizando estados de "attention sinks", una ventana corta de tokens visuales recientes y una ventana larga de tokens de texto recientes. Esta capacidad de streaming se inculca mediante una simple estrategia de ajuste fino supervisado (SFT, por sus siglas en inglés) que aplica atención completa en fragmentos de video cortos y superpuestos, lo que imita efectivamente el patrón de atención en tiempo de inferencia sin entrenar en contextos prohibitivamente largos. Para la evaluación, construimos Inf-Streams-Eval, un nuevo punto de referencia con videos que promedian más de dos horas y que requiere una alineación densa y por segundo entre fotogramas y texto. En Inf-Streams-Eval, StreamingVLM logra una tasa de victoria del 66.18% frente a GPT-4O mini y mantiene un rendimiento estable y en tiempo real de hasta 8 FPS en una sola NVIDIA H100. Notablemente, nuestra estrategia SFT también mejora las habilidades generales de VQA (respuesta a preguntas visuales) sin ningún ajuste fino específico para VQA, mejorando el rendimiento en LongVideoBench en +4.30 y en OVOBench Realtime en +5.96. El código está disponible en https://github.com/mit-han-lab/streaming-vlm.
English
Vision-language models (VLMs) could power real-time assistants and autonomous
agents, but they face a critical challenge: understanding near-infinite video
streams without escalating latency and memory usage. Processing entire videos
with full attention leads to quadratic computational costs and poor performance
on long videos. Meanwhile, simple sliding window methods are also flawed, as
they either break coherence or suffer from high latency due to redundant
recomputation. In this paper, we introduce StreamingVLM, a model designed for
real-time, stable understanding of infinite visual input. Our approach is a
unified framework that aligns training with streaming inference. During
inference, we maintain a compact KV cache by reusing states of attention sinks,
a short window of recent vision tokens, and a long window of recent text
tokens. This streaming ability is instilled via a simple supervised fine-tuning
(SFT) strategy that applies full attention on short, overlapped video chunks,
which effectively mimics the inference-time attention pattern without training
on prohibitively long contexts. For evaluation, we build Inf-Streams-Eval, a
new benchmark with videos averaging over two hours that requires dense,
per-second alignment between frames and text. On Inf-Streams-Eval, StreamingVLM
achieves a 66.18% win rate against GPT-4O mini and maintains stable, real-time
performance at up to 8 FPS on a single NVIDIA H100. Notably, our SFT strategy
also enhances general VQA abilities without any VQA-specific fine-tuning,
improving performance on LongVideoBench by +4.30 and OVOBench Realtime by
+5.96. Code is available at https://github.com/mit-han-lab/streaming-vlm.