Comprensione Efficiente di Video Lunghi per Modelli Linguistici Multimodali con Ottimizzazione dei Token
Token-Efficient Long Video Understanding for Multimodal LLMs
March 6, 2025
Autori: Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon
cs.AI
Abstract
I recenti progressi nei modelli linguistici multimodali basati su video (Video-LLMs) hanno migliorato significativamente la comprensione dei video elaborandoli come sequenze di fotogrammi. Tuttavia, molti metodi esistenti trattano i fotogrammi in modo indipendente nel backbone visivo, senza un'esplicita modellazione temporale, il che limita la loro capacità di catturare modelli dinamici e gestire in modo efficiente video lunghi. Per affrontare queste limitazioni, introduciamo STORM (Spatiotemporal TOken Reduction for Multimodal LLMs), una nuova architettura che incorpora un encoder temporale dedicato tra l'encoder di immagini e l'LLM. Il nostro encoder temporale sfrutta il Mamba State Space Model per integrare informazioni temporali nei token di immagini, generando rappresentazioni arricchite che preservano le dinamiche inter-fotogramma lungo l'intera sequenza video. Questa codifica arricchita non solo migliora le capacità di ragionamento sui video, ma consente anche strategie efficaci di riduzione dei token, inclusi il campionamento in fase di test e il pooling temporale e spaziale basato sul training, riducendo sostanzialmente le richieste computazionali sull'LLM senza sacrificare informazioni temporali chiave. Integrando queste tecniche, il nostro approccio riduce simultaneamente la latenza di training e inferenza migliorando le prestazioni, consentendo una comprensione efficiente e robusta dei video in contesti temporali estesi. Valutazioni estensive dimostrano che STORM raggiunge risultati all'avanguardia su vari benchmark di comprensione di video lunghi (più del 5% di miglioramento su MLVU e LongVideoBench) riducendo i costi computazionali fino a 8 volte e la latenza di decodifica di 2,4-2,9 volte per un numero fisso di fotogrammi in input. La pagina del progetto è disponibile all'indirizzo https://research.nvidia.com/labs/lpr/storm.
English
Recent advances in video-based multimodal large language models (Video-LLMs)
have significantly improved video understanding by processing videos as
sequences of image frames. However, many existing methods treat frames
independently in the vision backbone, lacking explicit temporal modeling, which
limits their ability to capture dynamic patterns and efficiently handle long
videos. To address these limitations, we introduce STORM
(Spatiotemporal TOken Reduction for
Multimodal LLMs), a novel architecture incorporating a dedicated
temporal encoder between the image encoder and the LLM. Our temporal encoder
leverages the Mamba State Space Model to integrate temporal information into
image tokens, generating enriched representations that preserve inter-frame
dynamics across the entire video sequence. This enriched encoding not only
enhances video reasoning capabilities but also enables effective token
reduction strategies, including test-time sampling and training-based temporal
and spatial pooling, substantially reducing computational demands on the LLM
without sacrificing key temporal information. By integrating these techniques,
our approach simultaneously reduces training and inference latency while
improving performance, enabling efficient and robust video understanding over
extended temporal contexts. Extensive evaluations show that STORM achieves
state-of-the-art results across various long video understanding benchmarks
(more than 5\% improvement on MLVU and LongVideoBench) while reducing the
computation costs by up to 8times and the decoding latency by
2.4-2.9times for the fixed numbers of input frames. Project page is
available at https://research.nvidia.com/labs/lpr/stormSummary
AI-Generated Summary