Compreensão Eficiente de Vídeos Longos com Base em Tokens para LLMs Multimodais
Token-Efficient Long Video Understanding for Multimodal LLMs
March 6, 2025
Autores: Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon
cs.AI
Resumo
Os avanços recentes em modelos de linguagem multimodal baseados em vídeo (Video-LLMs) melhoraram significativamente a compreensão de vídeos ao processá-los como sequências de quadros de imagem. No entanto, muitos métodos existentes tratam os quadros de forma independente no backbone de visão, carecendo de modelagem temporal explícita, o que limita sua capacidade de capturar padrões dinâmicos e lidar eficientemente com vídeos longos. Para abordar essas limitações, introduzimos o STORM (Spatiotemporal TOken Reduction for Multimodal LLMs), uma nova arquitetura que incorpora um codificador temporal dedicado entre o codificador de imagem e o LLM. Nosso codificador temporal aproveita o Modelo de Espaço de Estados Mamba para integrar informações temporais aos tokens de imagem, gerando representações enriquecidas que preservam a dinâmica interquadros em toda a sequência de vídeo. Essa codificação enriquecida não apenas aprimora as capacidades de raciocínio em vídeo, mas também permite estratégias eficazes de redução de tokens, incluindo amostragem em tempo de teste e pooling temporal e espacial baseado em treinamento, reduzindo substancialmente as demandas computacionais no LLM sem sacrificar informações temporais essenciais. Ao integrar essas técnicas, nossa abordagem reduz simultaneamente a latência de treinamento e inferência enquanto melhora o desempenho, permitindo uma compreensão de vídeo eficiente e robusta em contextos temporais estendidos. Avaliações extensivas mostram que o STORM alcança resultados de ponta em vários benchmarks de compreensão de vídeos longos (melhoria de mais de 5% no MLVU e LongVideoBench) enquanto reduz os custos computacionais em até 8 vezes e a latência de decodificação em 2,4-2,9 vezes para um número fixo de quadros de entrada. A página do projeto está disponível em https://research.nvidia.com/labs/lpr/storm.
English
Recent advances in video-based multimodal large language models (Video-LLMs)
have significantly improved video understanding by processing videos as
sequences of image frames. However, many existing methods treat frames
independently in the vision backbone, lacking explicit temporal modeling, which
limits their ability to capture dynamic patterns and efficiently handle long
videos. To address these limitations, we introduce STORM
(Spatiotemporal TOken Reduction for
Multimodal LLMs), a novel architecture incorporating a dedicated
temporal encoder between the image encoder and the LLM. Our temporal encoder
leverages the Mamba State Space Model to integrate temporal information into
image tokens, generating enriched representations that preserve inter-frame
dynamics across the entire video sequence. This enriched encoding not only
enhances video reasoning capabilities but also enables effective token
reduction strategies, including test-time sampling and training-based temporal
and spatial pooling, substantially reducing computational demands on the LLM
without sacrificing key temporal information. By integrating these techniques,
our approach simultaneously reduces training and inference latency while
improving performance, enabling efficient and robust video understanding over
extended temporal contexts. Extensive evaluations show that STORM achieves
state-of-the-art results across various long video understanding benchmarks
(more than 5\% improvement on MLVU and LongVideoBench) while reducing the
computation costs by up to 8times and the decoding latency by
2.4-2.9times for the fixed numbers of input frames. Project page is
available at https://research.nvidia.com/labs/lpr/stormSummary
AI-Generated Summary