Video Mamba Suite: El Modelo de Espacio de Estados como una Alternativa Versátil para la Comprensión de Video
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding
March 14, 2024
Autores: Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang
cs.AI
Resumen
Comprender videos es una de las direcciones fundamentales en la investigación de visión por computadora, con esfuerzos extensos dedicados a explorar diversas arquitecturas como RNN, CNN 3D y Transformers. La arquitectura recientemente propuesta de modelos de espacio de estados, por ejemplo, Mamba, muestra características prometedoras para extender su éxito en el modelado de secuencias largas al modelado de videos. Para evaluar si Mamba puede ser una alternativa viable a los Transformers en el dominio de la comprensión de videos, en este trabajo realizamos un conjunto exhaustivo de estudios, explorando los diferentes roles que Mamba puede desempeñar en el modelado de videos, mientras investigamos diversas tareas en las que Mamba podría exhibir superioridad. Clasificamos Mamba en cuatro roles para el modelado de videos, derivando un Video Mamba Suite compuesto por 14 modelos/módulos, y los evaluamos en 12 tareas de comprensión de videos. Nuestros extensos experimentos revelan el fuerte potencial de Mamba tanto en tareas exclusivas de video como en tareas de video-lenguaje, mostrando además prometedores equilibrios entre eficiencia y rendimiento. Esperamos que este trabajo pueda proporcionar datos valiosos y perspectivas para futuras investigaciones sobre la comprensión de videos. El código es público: https://github.com/OpenGVLab/video-mamba-suite.
English
Understanding videos is one of the fundamental directions in computer vision
research, with extensive efforts dedicated to exploring various architectures
such as RNN, 3D CNN, and Transformers. The newly proposed architecture of state
space model, e.g., Mamba, shows promising traits to extend its success in long
sequence modeling to video modeling. To assess whether Mamba can be a viable
alternative to Transformers in the video understanding domain, in this work, we
conduct a comprehensive set of studies, probing different roles Mamba can play
in modeling videos, while investigating diverse tasks where Mamba could exhibit
superiority. We categorize Mamba into four roles for modeling videos, deriving
a Video Mamba Suite composed of 14 models/modules, and evaluating them on 12
video understanding tasks. Our extensive experiments reveal the strong
potential of Mamba on both video-only and video-language tasks while showing
promising efficiency-performance trade-offs. We hope this work could provide
valuable data points and insights for future research on video understanding.
Code is public: https://github.com/OpenGVLab/video-mamba-suite.Summary
AI-Generated Summary