Una Línea Base Simple para la Comprensión de Vídeo en Flujo Continuo
A Simple Baseline for Streaming Video Understanding
April 2, 2026
Autores: Yujiao Shen, Shulin Tian, Jingkang Yang, Ziwei Liu
cs.AI
Resumen
Los métodos recientes de comprensión de vídeo en streaming dependen cada vez más de complejos mecanismos de memoria para manejar secuencias de vídeo largas. Cuestionamos esta tendencia con un hallazgo simple: una línea base de ventana deslizante que alimenta solo las N fotogramas más recientes a un VLM estándar ya iguala o supera a los modelos de streaming publicados. Formalizamos esta línea base como SimpleStream y la evaluamos frente a 13 líneas base principales de LLM de vídeo, tanto offline como online, en OVO-Bench y StreamingBench. A pesar de su simplicidad, SimpleStream ofrece un rendimiento consistentemente sólido. Con solo 4 fotogramas recientes, alcanza un 67.7% de precisión media en OVO-Bench y un 80.59% en StreamingBench. Las ablaciones controladas muestran además que el valor de un contexto más largo depende del modelo base, en lugar de aumentar uniformemente con la escala del modelo, y revelan una compensación constante entre percepción y memoria: añadir más contexto histórico puede mejorar la recuperación, pero a menudo debilita la percepción en tiempo real. Esto sugiere que los módulos más potentes de memoria, recuperación o compresión no deben tomarse como evidencia de progreso a menos que superen claramente a SimpleStream bajo el mismo protocolo. Por lo tanto, sostenemos que los futuros benchmarks de streaming deberían separar la percepción de la escena reciente de la memoria de largo alcance, para que las mejoras de rendimiento derivadas de la complejidad añadida puedan evaluarse con mayor claridad.
English
Recent streaming video understanding methods increasingly rely on complex memory mechanisms to handle long video streams. We challenge this trend with a simple finding: a sliding-window baseline that feeds only the most recent N frames to an off-the-shelf VLM already matches or surpasses published streaming models. We formalize this baseline as SimpleStream and evaluate it against 13 major offline and online video LLM baselines on OVO-Bench and StreamingBench. Despite its simplicity, SimpleStream delivers consistently strong performance. With only 4 recent frames, it reaches 67.7% average accuracy on OVO-Bench and 80.59% on StreamingBench. Controlled ablations further show that the value of longer context is backbone-dependent rather than uniformly increasing with model scale, and reveal a consistent perception-memory trade-off: adding more historical context can improve recall, but often weakens real-time perception. This suggests that stronger memory, retrieval, or compression modules should not be taken as evidence of progress unless they clearly outperform SimpleStream under the same protocol. We therefore argue that future streaming benchmarks should separate recent-scene perception from long-range memory, so that performance improvements from added complexity can be evaluated more clearly.