Comprensión eficiente de videos largos mediante tokens para modelos de lenguaje multimodal (LLMs)
Token-Efficient Long Video Understanding for Multimodal LLMs
March 6, 2025
Autores: Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje multimodal basados en video (Video-LLMs) han mejorado significativamente la comprensión de videos al procesarlos como secuencias de fotogramas de imagen. Sin embargo, muchos métodos existentes tratan los fotogramas de manera independiente en el núcleo de visión, careciendo de un modelado temporal explícito, lo que limita su capacidad para capturar patrones dinámicos y manejar eficientemente videos largos. Para abordar estas limitaciones, presentamos STORM (Reducción Espaciotemporal de Tokens para LLMs Multimodales), una arquitectura novedosa que incorpora un codificador temporal dedicado entre el codificador de imágenes y el LLM. Nuestro codificador temporal aprovecha el Modelo de Espacio de Estados Mamba para integrar información temporal en los tokens de imagen, generando representaciones enriquecidas que preservan la dinámica inter-fotograma a lo largo de toda la secuencia de video. Esta codificación enriquecida no solo mejora las capacidades de razonamiento de video, sino que también permite estrategias efectivas de reducción de tokens, incluyendo muestreo en tiempo de prueba y agrupación temporal y espacial basada en entrenamiento, reduciendo sustancialmente las demandas computacionales en el LLM sin sacrificar información temporal clave. Al integrar estas técnicas, nuestro enfoque reduce simultáneamente la latencia de entrenamiento e inferencia mientras mejora el rendimiento, permitiendo una comprensión de video eficiente y robusta en contextos temporales extendidos. Evaluaciones exhaustivas muestran que STORM logra resultados de vanguardia en varios puntos de referencia de comprensión de videos largos (más del 5% de mejora en MLVU y LongVideoBench) mientras reduce los costos de computación hasta 8 veces y la latencia de decodificación entre 2.4 y 2.9 veces para un número fijo de fotogramas de entrada. La página del proyecto está disponible en https://research.nvidia.com/labs/lpr/storm.
English
Recent advances in video-based multimodal large language models (Video-LLMs)
have significantly improved video understanding by processing videos as
sequences of image frames. However, many existing methods treat frames
independently in the vision backbone, lacking explicit temporal modeling, which
limits their ability to capture dynamic patterns and efficiently handle long
videos. To address these limitations, we introduce STORM
(Spatiotemporal TOken Reduction for
Multimodal LLMs), a novel architecture incorporating a dedicated
temporal encoder between the image encoder and the LLM. Our temporal encoder
leverages the Mamba State Space Model to integrate temporal information into
image tokens, generating enriched representations that preserve inter-frame
dynamics across the entire video sequence. This enriched encoding not only
enhances video reasoning capabilities but also enables effective token
reduction strategies, including test-time sampling and training-based temporal
and spatial pooling, substantially reducing computational demands on the LLM
without sacrificing key temporal information. By integrating these techniques,
our approach simultaneously reduces training and inference latency while
improving performance, enabling efficient and robust video understanding over
extended temporal contexts. Extensive evaluations show that STORM achieves
state-of-the-art results across various long video understanding benchmarks
(more than 5\% improvement on MLVU and LongVideoBench) while reducing the
computation costs by up to 8times and the decoding latency by
2.4-2.9times for the fixed numbers of input frames. Project page is
available at https://research.nvidia.com/labs/lpr/stormSummary
AI-Generated Summary