Видео Mamba Suite: Модель пространства состояний как универсальная альтернатива для понимания видео
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding
March 14, 2024
Авторы: Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang
cs.AI
Аннотация
Понимание видео является одним из фундаментальных направлений в исследованиях компьютерного зрения, с обширными усилиями, посвященными изучению различных архитектур, таких как RNN, 3D CNN и Трансформеры. Недавно предложенная архитектура модели пространства состояний, например, Mamba, показывает многообещающие черты для расширения своего успеха в моделировании видео с длинными последовательностями. Для оценки того, может ли Mamba быть жизнеспособной альтернативой Трансформерам в области понимания видео, в данной работе мы проводим комплексный набор исследований, исследуя различные роли, которые Mamba может играть в моделировании видео, и исследуя различные задачи, где Mamba может проявить превосходство. Мы классифицируем Mamba на четыре роли для моделирования видео, вытекая из этого Видео-набора Mamba, состоящего из 14 моделей/модулей, и оцениваем их на 12 задачах по пониманию видео. Наши обширные эксперименты раскрывают сильный потенциал Mamba как в задачах только с видео, так и в задачах видео-языка, показывая многообещающие компромиссы между эффективностью и производительностью. Мы надеемся, что данная работа может предоставить ценные данные и идеи для будущих исследований в области понимания видео. Код общедоступен: https://github.com/OpenGVLab/video-mamba-suite.
English
Understanding videos is one of the fundamental directions in computer vision
research, with extensive efforts dedicated to exploring various architectures
such as RNN, 3D CNN, and Transformers. The newly proposed architecture of state
space model, e.g., Mamba, shows promising traits to extend its success in long
sequence modeling to video modeling. To assess whether Mamba can be a viable
alternative to Transformers in the video understanding domain, in this work, we
conduct a comprehensive set of studies, probing different roles Mamba can play
in modeling videos, while investigating diverse tasks where Mamba could exhibit
superiority. We categorize Mamba into four roles for modeling videos, deriving
a Video Mamba Suite composed of 14 models/modules, and evaluating them on 12
video understanding tasks. Our extensive experiments reveal the strong
potential of Mamba on both video-only and video-language tasks while showing
promising efficiency-performance trade-offs. We hope this work could provide
valuable data points and insights for future research on video understanding.
Code is public: https://github.com/OpenGVLab/video-mamba-suite.