Flash-VStream: Comprensión en Tiempo Real Basada en Memoria para Transmisiones de Video Largas
Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams
June 12, 2024
Autores: Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, Xiaojie Jin
cs.AI
Resumen
Beneficiándose de los avances en los grandes modelos de lenguaje y el alineamiento multimodal, los métodos existentes de comprensión de video multimodal han logrado un rendimiento destacado en escenarios offline. Sin embargo, los flujos de video en línea, como una de las formas de medios más comunes en el mundo real, han recibido escasa atención. En comparación con los videos offline, la naturaleza 'dinámica' de los flujos de video en línea plantea desafíos para la aplicación directa de los modelos existentes e introduce nuevos problemas, como el almacenamiento de información extremadamente a largo plazo, la interacción entre el contenido visual continuo y las preguntas de usuario 'asincrónicas'. Por lo tanto, en este documento presentamos Flash-VStream, un modelo de video-lenguaje que simula el mecanismo de memoria humano. Nuestro modelo es capaz de procesar flujos de video extremadamente largos en tiempo real y responder a consultas de usuarios simultáneamente. En comparación con los modelos existentes, Flash-VStream logra reducciones significativas en la latencia de inferencia y el consumo de VRAM, lo cual está íntimamente relacionado con la comprensión de video en streaming en línea. Además, dado que los benchmarks existentes de comprensión de video se concentran predominantemente en escenarios offline, proponemos VStream-QA, un nuevo benchmark de preguntas y respuestas diseñado específicamente para la comprensión de video en streaming en línea. Las comparaciones con los métodos existentes populares en el benchmark propuesto demuestran la superioridad de nuestro método para este entorno desafiante. Para verificar la generalizabilidad de nuestro enfoque, lo evaluamos además en benchmarks existentes de comprensión de video y logramos un rendimiento de vanguardia también en escenarios offline. Todo el código, modelos y conjuntos de datos están disponibles en https://invinciblewyq.github.io/vstream-page/
English
Benefiting from the advancements in large language models and cross-modal
alignment, existing multi-modal video understanding methods have achieved
prominent performance in offline scenario. However, online video streams, as
one of the most common media forms in the real world, have seldom received
attention. Compared to offline videos, the 'dynamic' nature of online video
streams poses challenges for the direct application of existing models and
introduces new problems, such as the storage of extremely long-term
information, interaction between continuous visual content and 'asynchronous'
user questions. Therefore, in this paper we present Flash-VStream, a
video-language model that simulates the memory mechanism of human. Our model is
able to process extremely long video streams in real-time and respond to user
queries simultaneously. Compared to existing models, Flash-VStream achieves
significant reductions in inference latency and VRAM consumption, which is
intimately related to performing understanding of online streaming video. In
addition, given that existing video understanding benchmarks predominantly
concentrate on offline scenario, we propose VStream-QA, a novel question
answering benchmark specifically designed for online video streaming
understanding. Comparisons with popular existing methods on the proposed
benchmark demonstrate the superiority of our method for such challenging
setting. To verify the generalizability of our approach, we further evaluate it
on existing video understanding benchmarks and achieves state-of-the-art
performance in offline scenarios as well. All code, models, and datasets are
available at the https://invinciblewyq.github.io/vstream-page/Summary
AI-Generated Summary