Suite Video Mamba : Le modèle d'espace d'état comme alternative polyvalente pour la compréhension vidéo
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding
March 14, 2024
Auteurs: Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang
cs.AI
Résumé
La compréhension des vidéos est l'une des directions fondamentales de la recherche en vision par ordinateur, avec des efforts considérables consacrés à l'exploration de diverses architectures telles que les RNN, les CNN 3D et les Transformers. La nouvelle architecture de modèle d'espace d'états, par exemple Mamba, montre des traits prometteurs pour étendre son succès dans la modélisation de longues séquences à la modélisation vidéo. Pour évaluer si Mamba peut constituer une alternative viable aux Transformers dans le domaine de la compréhension vidéo, nous menons dans ce travail un ensemble complet d'études, explorant les différents rôles que Mamba peut jouer dans la modélisation des vidéos, tout en investiguant diverses tâches où Mamba pourrait démontrer une supériorité. Nous catégorisons Mamba en quatre rôles pour la modélisation vidéo, dérivant une Suite Video Mamba composée de 14 modèles/modules, et les évaluons sur 12 tâches de compréhension vidéo. Nos expériences approfondies révèlent le fort potentiel de Mamba sur les tâches vidéo uniquement ainsi que sur les tâches vidéo-langage, tout en montrant des compromis prometteurs entre efficacité et performance. Nous espérons que ce travail pourra fournir des points de données précieux et des insights pour les futures recherches sur la compréhension vidéo. Le code est public : https://github.com/OpenGVLab/video-mamba-suite.
English
Understanding videos is one of the fundamental directions in computer vision
research, with extensive efforts dedicated to exploring various architectures
such as RNN, 3D CNN, and Transformers. The newly proposed architecture of state
space model, e.g., Mamba, shows promising traits to extend its success in long
sequence modeling to video modeling. To assess whether Mamba can be a viable
alternative to Transformers in the video understanding domain, in this work, we
conduct a comprehensive set of studies, probing different roles Mamba can play
in modeling videos, while investigating diverse tasks where Mamba could exhibit
superiority. We categorize Mamba into four roles for modeling videos, deriving
a Video Mamba Suite composed of 14 models/modules, and evaluating them on 12
video understanding tasks. Our extensive experiments reveal the strong
potential of Mamba on both video-only and video-language tasks while showing
promising efficiency-performance trade-offs. We hope this work could provide
valuable data points and insights for future research on video understanding.
Code is public: https://github.com/OpenGVLab/video-mamba-suite.Summary
AI-Generated Summary