StreamingVLM: Comprensión en Tiempo Real para Flujos de Video Infinitos

Resumen

Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) podrían impulsar asistentes en tiempo real y agentes autónomos, pero enfrentan un desafío crítico: comprender flujos de video casi infinitos sin aumentar la latencia y el uso de memoria. Procesar videos completos con atención plena conlleva costos computacionales cuadráticos y un rendimiento deficiente en videos largos. Por otro lado, los métodos simples de ventana deslizante también tienen fallas, ya que o bien rompen la coherencia o sufren de alta latencia debido a la recomputación redundante. En este artículo, presentamos StreamingVLM, un modelo diseñado para la comprensión estable y en tiempo real de entradas visuales infinitas. Nuestro enfoque es un marco unificado que alinea el entrenamiento con la inferencia en streaming. Durante la inferencia, mantenemos una caché KV compacta reutilizando estados de "attention sinks", una ventana corta de tokens visuales recientes y una ventana larga de tokens de texto recientes. Esta capacidad de streaming se inculca mediante una simple estrategia de ajuste fino supervisado (SFT, por sus siglas en inglés) que aplica atención completa en fragmentos de video cortos y superpuestos, lo que imita efectivamente el patrón de atención en tiempo de inferencia sin entrenar en contextos prohibitivamente largos. Para la evaluación, construimos Inf-Streams-Eval, un nuevo punto de referencia con videos que promedian más de dos horas y que requiere una alineación densa y por segundo entre fotogramas y texto. En Inf-Streams-Eval, StreamingVLM logra una tasa de victoria del 66.18% frente a GPT-4O mini y mantiene un rendimiento estable y en tiempo real de hasta 8 FPS en una sola NVIDIA H100. Notablemente, nuestra estrategia SFT también mejora las habilidades generales de VQA (respuesta a preguntas visuales) sin ningún ajuste fino específico para VQA, mejorando el rendimiento en LongVideoBench en +4.30 y en OVOBench Realtime en +5.96. El código está disponible en https://github.com/mit-han-lab/streaming-vlm.

English

Vision-language models (VLMs) could power real-time assistants and autonomous agents, but they face a critical challenge: understanding near-infinite video streams without escalating latency and memory usage. Processing entire videos with full attention leads to quadratic computational costs and poor performance on long videos. Meanwhile, simple sliding window methods are also flawed, as they either break coherence or suffer from high latency due to redundant recomputation. In this paper, we introduce StreamingVLM, a model designed for real-time, stable understanding of infinite visual input. Our approach is a unified framework that aligns training with streaming inference. During inference, we maintain a compact KV cache by reusing states of attention sinks, a short window of recent vision tokens, and a long window of recent text tokens. This streaming ability is instilled via a simple supervised fine-tuning (SFT) strategy that applies full attention on short, overlapped video chunks, which effectively mimics the inference-time attention pattern without training on prohibitively long contexts. For evaluation, we build Inf-Streams-Eval, a new benchmark with videos averaging over two hours that requires dense, per-second alignment between frames and text. On Inf-Streams-Eval, StreamingVLM achieves a 66.18% win rate against GPT-4O mini and maintains stable, real-time performance at up to 8 FPS on a single NVIDIA H100. Notably, our SFT strategy also enhances general VQA abilities without any VQA-specific fine-tuning, improving performance on LongVideoBench by +4.30 and OVOBench Realtime by +5.96. Code is available at https://github.com/mit-han-lab/streaming-vlm.

StreamingVLM: Comprensión en Tiempo Real para Flujos de Video Infinitos

StreamingVLM: Real-Time Understanding for Infinite Video Streams

Resumen

Support