Video Mamba Suite: Zustandsraummodell als vielseitige Alternative für die Videoanalyse

papers.abstract

Das Verständnis von Videos ist eine der grundlegenden Richtungen in der Forschung zur Computer Vision, wobei umfangreiche Bemühungen darauf gerichtet sind, verschiedene Architekturen wie RNN, 3D CNN und Transformers zu erkunden. Die neu vorgeschlagene Architektur des Zustandsraummodells, z. B. Mamba, zeigt vielversprechende Merkmale, um ihren Erfolg bei der Modellierung langer Sequenzen auf die Videomodellierung auszudehnen. Um zu bewerten, ob Mamba eine tragfähige Alternative zu Transformers im Bereich des Videoverständnisses sein kann, führen wir in dieser Arbeit eine umfassende Studie durch, die verschiedene Rollen untersucht, die Mamba bei der Modellierung von Videos spielen kann, und verschiedene Aufgaben untersucht, bei denen Mamba Überlegenheit zeigen könnte. Wir kategorisieren Mamba in vier Rollen zur Modellierung von Videos, leiten eine Video Mamba Suite ab, die aus 14 Modellen/Modulen besteht, und evaluieren sie anhand von 12 Videoverständnisaufgaben. Unsere umfangreichen Experimente zeigen das starke Potenzial von Mamba sowohl bei reinen Video- als auch bei Video-Sprach-Aufgaben und zeigen vielversprechende Effizienz-Leistungs-Abwägungen auf. Wir hoffen, dass diese Arbeit wertvolle Datenpunkte und Erkenntnisse für zukünftige Forschungen zum Videoverständnis liefern kann. Der Code ist öffentlich zugänglich: https://github.com/OpenGVLab/video-mamba-suite.

English

Understanding videos is one of the fundamental directions in computer vision research, with extensive efforts dedicated to exploring various architectures such as RNN, 3D CNN, and Transformers. The newly proposed architecture of state space model, e.g., Mamba, shows promising traits to extend its success in long sequence modeling to video modeling. To assess whether Mamba can be a viable alternative to Transformers in the video understanding domain, in this work, we conduct a comprehensive set of studies, probing different roles Mamba can play in modeling videos, while investigating diverse tasks where Mamba could exhibit superiority. We categorize Mamba into four roles for modeling videos, deriving a Video Mamba Suite composed of 14 models/modules, and evaluating them on 12 video understanding tasks. Our extensive experiments reveal the strong potential of Mamba on both video-only and video-language tasks while showing promising efficiency-performance trade-offs. We hope this work could provide valuable data points and insights for future research on video understanding. Code is public: https://github.com/OpenGVLab/video-mamba-suite.

Video Mamba Suite: Zustandsraummodell als vielseitige Alternative für die Videoanalyse

Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

papers.abstract

Support