Video Mamba Suite: Modello a Spazio degli Stati come Alternativa Versatile per la Comprensione Video

Abstract

La comprensione dei video rappresenta una delle direzioni fondamentali nella ricerca di computer vision, con sforzi significativi dedicati all'esplorazione di varie architetture come RNN, 3D CNN e Transformers. La nuova architettura proposta del modello a spazio di stati, ad esempio Mamba, mostra caratteristiche promettenti per estendere il suo successo nella modellazione di sequenze lunghe alla modellazione video. Per valutare se Mamba possa rappresentare un'alternativa valida ai Transformers nel dominio della comprensione video, in questo lavoro conduciamo un'ampia serie di studi, esplorando i diversi ruoli che Mamba può svolgere nella modellazione dei video, mentre investigiamo vari compiti in cui Mamba potrebbe dimostrare superiorità. Classifichiamo Mamba in quattro ruoli per la modellazione video, derivando una Video Mamba Suite composta da 14 modelli/moduli, e li valutiamo su 12 compiti di comprensione video. I nostri esperimenti estensivi rivelano il forte potenziale di Mamba sia su compiti esclusivamente video che su compiti video-linguaggio, mostrando promettenti compromessi tra efficienza e prestazioni. Speriamo che questo lavoro possa fornire dati e intuizioni preziosi per future ricerche sulla comprensione video. Il codice è pubblico: https://github.com/OpenGVLab/video-mamba-suite.

English

Understanding videos is one of the fundamental directions in computer vision research, with extensive efforts dedicated to exploring various architectures such as RNN, 3D CNN, and Transformers. The newly proposed architecture of state space model, e.g., Mamba, shows promising traits to extend its success in long sequence modeling to video modeling. To assess whether Mamba can be a viable alternative to Transformers in the video understanding domain, in this work, we conduct a comprehensive set of studies, probing different roles Mamba can play in modeling videos, while investigating diverse tasks where Mamba could exhibit superiority. We categorize Mamba into four roles for modeling videos, deriving a Video Mamba Suite composed of 14 models/modules, and evaluating them on 12 video understanding tasks. Our extensive experiments reveal the strong potential of Mamba on both video-only and video-language tasks while showing promising efficiency-performance trade-offs. We hope this work could provide valuable data points and insights for future research on video understanding. Code is public: https://github.com/OpenGVLab/video-mamba-suite.

Video Mamba Suite: Modello a Spazio degli Stati come Alternativa Versatile per la Comprensione Video

Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

Abstract

Support