VideoLLaMB: Comprensión de video de largo contexto con Memoria Recurrente Bridges
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges
September 2, 2024
Autores: Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng
cs.AI
Resumen
Los avances recientes en modelos de video-idioma a gran escala han mostrado un potencial significativo para la planificación en tiempo real y las interacciones detalladas. Sin embargo, sus altas demandas computacionales y la escasez de conjuntos de datos anotados limitan su practicidad para los investigadores académicos. En este trabajo, presentamos VideoLLaMB, un marco novedoso que utiliza fichas de memoria temporal en capas puente para permitir la codificación de secuencias de video completas junto con datos visuales históricos, preservando efectivamente la continuidad semántica y mejorando el rendimiento del modelo en diversas tareas. Este enfoque incluye fichas de memoria recurrentes y un algoritmo de Segmentación de Escenas, que segmenta videos en unidades semánticas independientes para preservar la integridad semántica. Empíricamente, VideoLLaMB supera significativamente a los modelos de video-idioma existentes, demostrando una mejora de 5.5 puntos sobre sus competidores en tres bancos de pruebas de VideoQA, y 2.06 puntos en planificación egocéntrica. Los resultados exhaustivos en MVBench muestran que VideoLLaMB-7B logra resultados notablemente mejores que los modelos 7B anteriores del mismo LLM. Notablemente, mantiene un rendimiento robusto como PLLaVA incluso a medida que la longitud del video aumenta hasta 8 veces. Además, los resultados de recuperación de fotogramas en nuestro banco de pruebas especializado Needle in a Video Haystack (NIAVH) validan aún más la capacidad de VideoLLaMB para identificar con precisión fotogramas específicos dentro de videos extensos. Nuestro algoritmo de Segmentación de Escenas también permite la generación de subtítulos de video en tiempo real directamente, sin necesidad de entrenamiento adicional. En términos de eficiencia, VideoLLaMB, entrenado en 16 fotogramas, admite hasta 320 fotogramas en una sola GPU Nvidia A100 con escalado lineal de memoria de GPU, garantizando tanto un alto rendimiento como rentabilidad, estableciendo así una nueva base para modelos de video-idioma de larga duración en aplicaciones académicas y prácticas.
English
Recent advancements in large-scale video-language models have shown
significant potential for real-time planning and detailed interactions.
However, their high computational demands and the scarcity of annotated
datasets limit their practicality for academic researchers. In this work, we
introduce VideoLLaMB, a novel framework that utilizes temporal memory tokens
within bridge layers to allow for the encoding of entire video sequences
alongside historical visual data, effectively preserving semantic continuity
and enhancing model performance across various tasks. This approach includes
recurrent memory tokens and a SceneTilling algorithm, which segments videos
into independent semantic units to preserve semantic integrity. Empirically,
VideoLLaMB significantly outstrips existing video-language models,
demonstrating a 5.5 points improvement over its competitors across three
VideoQA benchmarks, and 2.06 points on egocentric planning. Comprehensive
results on the MVBench show that VideoLLaMB-7B achieves markedly better results
than previous 7B models of same LLM. Remarkably, it maintains robust
performance as PLLaVA even as video length increases up to 8 times. Besides,
the frame retrieval results on our specialized Needle in a Video Haystack
(NIAVH) benchmark, further validate VideoLLaMB's prowess in accurately
identifying specific frames within lengthy videos. Our SceneTilling algorithm
also enables the generation of streaming video captions directly, without
necessitating additional training. In terms of efficiency, VideoLLaMB, trained
on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear
GPU memory scaling, ensuring both high performance and cost-effectiveness,
thereby setting a new foundation for long-form video-language models in both
academic and practical applications.Summary
AI-Generated Summary