Video Mamba Suite: Modello a Spazio degli Stati come Alternativa Versatile per la Comprensione Video
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding
March 14, 2024
Autori: Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang
cs.AI
Abstract
La comprensione dei video rappresenta una delle direzioni fondamentali nella ricerca di computer vision, con sforzi significativi dedicati all'esplorazione di varie architetture come RNN, 3D CNN e Transformers. La nuova architettura proposta del modello a spazio di stati, ad esempio Mamba, mostra caratteristiche promettenti per estendere il suo successo nella modellazione di sequenze lunghe alla modellazione video. Per valutare se Mamba possa rappresentare un'alternativa valida ai Transformers nel dominio della comprensione video, in questo lavoro conduciamo un'ampia serie di studi, esplorando i diversi ruoli che Mamba può svolgere nella modellazione dei video, mentre investigiamo vari compiti in cui Mamba potrebbe dimostrare superiorità. Classifichiamo Mamba in quattro ruoli per la modellazione video, derivando una Video Mamba Suite composta da 14 modelli/moduli, e li valutiamo su 12 compiti di comprensione video. I nostri esperimenti estensivi rivelano il forte potenziale di Mamba sia su compiti esclusivamente video che su compiti video-linguaggio, mostrando promettenti compromessi tra efficienza e prestazioni. Speriamo che questo lavoro possa fornire dati e intuizioni preziosi per future ricerche sulla comprensione video. Il codice è pubblico: https://github.com/OpenGVLab/video-mamba-suite.
English
Understanding videos is one of the fundamental directions in computer vision
research, with extensive efforts dedicated to exploring various architectures
such as RNN, 3D CNN, and Transformers. The newly proposed architecture of state
space model, e.g., Mamba, shows promising traits to extend its success in long
sequence modeling to video modeling. To assess whether Mamba can be a viable
alternative to Transformers in the video understanding domain, in this work, we
conduct a comprehensive set of studies, probing different roles Mamba can play
in modeling videos, while investigating diverse tasks where Mamba could exhibit
superiority. We categorize Mamba into four roles for modeling videos, deriving
a Video Mamba Suite composed of 14 models/modules, and evaluating them on 12
video understanding tasks. Our extensive experiments reveal the strong
potential of Mamba on both video-only and video-language tasks while showing
promising efficiency-performance trade-offs. We hope this work could provide
valuable data points and insights for future research on video understanding.
Code is public: https://github.com/OpenGVLab/video-mamba-suite.