Token-efficiënt begrip van lange video's voor multimodale LLM's
Token-Efficient Long Video Understanding for Multimodal LLMs
March 6, 2025
Auteurs: Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon
cs.AI
Samenvatting
Recente vooruitgang in video-gebaseerde multimodale grote taalmodellen (Video-LLMs) heeft het begrip van video's aanzienlijk verbeterd door video's te verwerken als reeksen beeldframes. Veel bestaande methoden behandelen frames echter onafhankelijk in de visuele backbone, zonder expliciete temporele modellering, wat hun vermogen beperkt om dynamische patronen vast te leggen en lange video's efficiënt te verwerken. Om deze beperkingen aan te pakken, introduceren we STORM (Spatiotemporal TOken Reduction for Multimodal LLMs), een nieuwe architectuur die een specifieke temporele encoder integreert tussen de beeldencoder en het LLM. Onze temporele encoder maakt gebruik van het Mamba State Space Model om temporele informatie in beeldtokens te integreren, waardoor verrijkte representaties worden gegenereerd die de dynamiek tussen frames in de gehele videosequentie behouden. Deze verrijkte codering verbetert niet alleen de redeneervaardigheden voor video's, maar maakt ook effectieve tokenreductiestrategieën mogelijk, waaronder test-time sampling en training-gebaseerde temporele en ruimtelijke pooling, wat de rekenkundige eisen aan het LLM aanzienlijk vermindert zonder belangrijke temporele informatie op te offeren. Door deze technieken te integreren, vermindert onze aanpak zowel de trainings- als de inferentielatentie terwijl de prestaties worden verbeterd, wat efficiënt en robuust videobegrip over uitgebreide temporele contexten mogelijk maakt. Uitgebreide evaluaties tonen aan dat STORM state-of-the-art resultaten behaalt op verschillende benchmarks voor langdurig videobegrip (meer dan 5% verbetering op MLVU en LongVideoBench) terwijl de rekenkosten tot 8 keer worden verminderd en de decoderinglatentie met 2,4-2,9 keer wordt verminderd voor een vast aantal invoerframes. De projectpagina is beschikbaar op https://research.nvidia.com/labs/lpr/storm.
English
Recent advances in video-based multimodal large language models (Video-LLMs)
have significantly improved video understanding by processing videos as
sequences of image frames. However, many existing methods treat frames
independently in the vision backbone, lacking explicit temporal modeling, which
limits their ability to capture dynamic patterns and efficiently handle long
videos. To address these limitations, we introduce STORM
(Spatiotemporal TOken Reduction for
Multimodal LLMs), a novel architecture incorporating a dedicated
temporal encoder between the image encoder and the LLM. Our temporal encoder
leverages the Mamba State Space Model to integrate temporal information into
image tokens, generating enriched representations that preserve inter-frame
dynamics across the entire video sequence. This enriched encoding not only
enhances video reasoning capabilities but also enables effective token
reduction strategies, including test-time sampling and training-based temporal
and spatial pooling, substantially reducing computational demands on the LLM
without sacrificing key temporal information. By integrating these techniques,
our approach simultaneously reduces training and inference latency while
improving performance, enabling efficient and robust video understanding over
extended temporal contexts. Extensive evaluations show that STORM achieves
state-of-the-art results across various long video understanding benchmarks
(more than 5\% improvement on MLVU and LongVideoBench) while reducing the
computation costs by up to 8times and the decoding latency by
2.4-2.9times for the fixed numbers of input frames. Project page is
available at https://research.nvidia.com/labs/lpr/stormSummary
AI-Generated Summary