Compréhension efficace en tokens de vidéos longues pour les LLMs multimodaux
Token-Efficient Long Video Understanding for Multimodal LLMs
March 6, 2025
Auteurs: Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon
cs.AI
Résumé
Les récents progrès des modèles de langage multimodaux basés sur la vidéo (Video-LLMs) ont considérablement amélioré la compréhension vidéo en traitant les vidéos comme des séquences d'images. Cependant, de nombreuses méthodes existantes traitent les images de manière indépendante dans le backbone visuel, sans modélisation temporelle explicite, ce qui limite leur capacité à capturer les motifs dynamiques et à gérer efficacement les vidéos longues. Pour résoudre ces limitations, nous introduisons STORM (Spatiotemporal TOken Reduction for Multimodal LLMs), une architecture novatrice intégrant un encodeur temporel dédié entre l'encodeur d'images et le LLM. Notre encodeur temporel exploite le modèle d'espace d'état Mamba pour intégrer des informations temporelles dans les tokens d'images, générant ainsi des représentations enrichies qui préservent la dynamique inter-images sur l'ensemble de la séquence vidéo. Cet encodage enrichi améliore non seulement les capacités de raisonnement vidéo, mais permet également des stratégies efficaces de réduction de tokens, incluant un échantillonnage au moment du test et un regroupement temporel et spatial basé sur l'entraînement, réduisant ainsi substantiellement les exigences computationnelles du LLM sans sacrifier les informations temporelles clés. En intégrant ces techniques, notre approche réduit simultanément la latence d'entraînement et d'inférence tout en améliorant les performances, permettant une compréhension vidéo efficace et robuste sur des contextes temporels étendus. Des évaluations approfondies montrent que STORM atteint des résultats de pointe sur divers benchmarks de compréhension de vidéos longues (plus de 5 % d'amélioration sur MLVU et LongVideoBench) tout en réduisant les coûts de calcul jusqu'à 8 fois et la latence de décodage de 2,4 à 2,9 fois pour un nombre fixe d'images en entrée. La page du projet est disponible à l'adresse suivante : https://research.nvidia.com/labs/lpr/storm.
English
Recent advances in video-based multimodal large language models (Video-LLMs)
have significantly improved video understanding by processing videos as
sequences of image frames. However, many existing methods treat frames
independently in the vision backbone, lacking explicit temporal modeling, which
limits their ability to capture dynamic patterns and efficiently handle long
videos. To address these limitations, we introduce STORM
(Spatiotemporal TOken Reduction for
Multimodal LLMs), a novel architecture incorporating a dedicated
temporal encoder between the image encoder and the LLM. Our temporal encoder
leverages the Mamba State Space Model to integrate temporal information into
image tokens, generating enriched representations that preserve inter-frame
dynamics across the entire video sequence. This enriched encoding not only
enhances video reasoning capabilities but also enables effective token
reduction strategies, including test-time sampling and training-based temporal
and spatial pooling, substantially reducing computational demands on the LLM
without sacrificing key temporal information. By integrating these techniques,
our approach simultaneously reduces training and inference latency while
improving performance, enabling efficient and robust video understanding over
extended temporal contexts. Extensive evaluations show that STORM achieves
state-of-the-art results across various long video understanding benchmarks
(more than 5\% improvement on MLVU and LongVideoBench) while reducing the
computation costs by up to 8times and the decoding latency by
2.4-2.9times for the fixed numbers of input frames. Project page is
available at https://research.nvidia.com/labs/lpr/stormSummary
AI-Generated Summary