Flash-VStream: Comprensión en Tiempo Real Basada en Memoria para Transmisiones de Video Largas

Resumen

Beneficiándose de los avances en los grandes modelos de lenguaje y el alineamiento multimodal, los métodos existentes de comprensión de video multimodal han logrado un rendimiento destacado en escenarios offline. Sin embargo, los flujos de video en línea, como una de las formas de medios más comunes en el mundo real, han recibido escasa atención. En comparación con los videos offline, la naturaleza 'dinámica' de los flujos de video en línea plantea desafíos para la aplicación directa de los modelos existentes e introduce nuevos problemas, como el almacenamiento de información extremadamente a largo plazo, la interacción entre el contenido visual continuo y las preguntas de usuario 'asincrónicas'. Por lo tanto, en este documento presentamos Flash-VStream, un modelo de video-lenguaje que simula el mecanismo de memoria humano. Nuestro modelo es capaz de procesar flujos de video extremadamente largos en tiempo real y responder a consultas de usuarios simultáneamente. En comparación con los modelos existentes, Flash-VStream logra reducciones significativas en la latencia de inferencia y el consumo de VRAM, lo cual está íntimamente relacionado con la comprensión de video en streaming en línea. Además, dado que los benchmarks existentes de comprensión de video se concentran predominantemente en escenarios offline, proponemos VStream-QA, un nuevo benchmark de preguntas y respuestas diseñado específicamente para la comprensión de video en streaming en línea. Las comparaciones con los métodos existentes populares en el benchmark propuesto demuestran la superioridad de nuestro método para este entorno desafiante. Para verificar la generalizabilidad de nuestro enfoque, lo evaluamos además en benchmarks existentes de comprensión de video y logramos un rendimiento de vanguardia también en escenarios offline. Todo el código, modelos y conjuntos de datos están disponibles en https://invinciblewyq.github.io/vstream-page/

English

Benefiting from the advancements in large language models and cross-modal alignment, existing multi-modal video understanding methods have achieved prominent performance in offline scenario. However, online video streams, as one of the most common media forms in the real world, have seldom received attention. Compared to offline videos, the 'dynamic' nature of online video streams poses challenges for the direct application of existing models and introduces new problems, such as the storage of extremely long-term information, interaction between continuous visual content and 'asynchronous' user questions. Therefore, in this paper we present Flash-VStream, a video-language model that simulates the memory mechanism of human. Our model is able to process extremely long video streams in real-time and respond to user queries simultaneously. Compared to existing models, Flash-VStream achieves significant reductions in inference latency and VRAM consumption, which is intimately related to performing understanding of online streaming video. In addition, given that existing video understanding benchmarks predominantly concentrate on offline scenario, we propose VStream-QA, a novel question answering benchmark specifically designed for online video streaming understanding. Comparisons with popular existing methods on the proposed benchmark demonstrate the superiority of our method for such challenging setting. To verify the generalizability of our approach, we further evaluate it on existing video understanding benchmarks and achieves state-of-the-art performance in offline scenarios as well. All code, models, and datasets are available at the https://invinciblewyq.github.io/vstream-page/

Flash-VStream: Comprensión en Tiempo Real Basada en Memoria para Transmisiones de Video Largas

Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams

Resumen

Support