Video Mamba Suite: Zustandsraummodell als vielseitige Alternative für die Videoanalyse
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding
March 14, 2024
Autoren: Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang
cs.AI
Zusammenfassung
Das Verständnis von Videos ist eine der grundlegenden Richtungen in der Forschung zur Computer Vision, wobei umfangreiche Bemühungen darauf gerichtet sind, verschiedene Architekturen wie RNN, 3D CNN und Transformers zu erkunden. Die neu vorgeschlagene Architektur des Zustandsraummodells, z. B. Mamba, zeigt vielversprechende Merkmale, um ihren Erfolg bei der Modellierung langer Sequenzen auf die Videomodellierung auszudehnen. Um zu bewerten, ob Mamba eine tragfähige Alternative zu Transformers im Bereich des Videoverständnisses sein kann, führen wir in dieser Arbeit eine umfassende Studie durch, die verschiedene Rollen untersucht, die Mamba bei der Modellierung von Videos spielen kann, und verschiedene Aufgaben untersucht, bei denen Mamba Überlegenheit zeigen könnte. Wir kategorisieren Mamba in vier Rollen zur Modellierung von Videos, leiten eine Video Mamba Suite ab, die aus 14 Modellen/Modulen besteht, und evaluieren sie anhand von 12 Videoverständnisaufgaben. Unsere umfangreichen Experimente zeigen das starke Potenzial von Mamba sowohl bei reinen Video- als auch bei Video-Sprach-Aufgaben und zeigen vielversprechende Effizienz-Leistungs-Abwägungen auf. Wir hoffen, dass diese Arbeit wertvolle Datenpunkte und Erkenntnisse für zukünftige Forschungen zum Videoverständnis liefern kann. Der Code ist öffentlich zugänglich: https://github.com/OpenGVLab/video-mamba-suite.
English
Understanding videos is one of the fundamental directions in computer vision
research, with extensive efforts dedicated to exploring various architectures
such as RNN, 3D CNN, and Transformers. The newly proposed architecture of state
space model, e.g., Mamba, shows promising traits to extend its success in long
sequence modeling to video modeling. To assess whether Mamba can be a viable
alternative to Transformers in the video understanding domain, in this work, we
conduct a comprehensive set of studies, probing different roles Mamba can play
in modeling videos, while investigating diverse tasks where Mamba could exhibit
superiority. We categorize Mamba into four roles for modeling videos, deriving
a Video Mamba Suite composed of 14 models/modules, and evaluating them on 12
video understanding tasks. Our extensive experiments reveal the strong
potential of Mamba on both video-only and video-language tasks while showing
promising efficiency-performance trade-offs. We hope this work could provide
valuable data points and insights for future research on video understanding.
Code is public: https://github.com/OpenGVLab/video-mamba-suite.Summary
AI-Generated Summary