VideoMamba: Modello a Spazio di Stati per una Comprensione Efficiente dei Video
VideoMamba: State Space Model for Efficient Video Understanding
March 11, 2024
Autori: Kunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Abstract
Affrontando le doppie sfide della ridondanza locale e delle dipendenze globali nella comprensione video, questo lavoro adatta in modo innovativo il Mamba al dominio video. Il VideoMamba proposto supera i limiti delle reti neurali convoluzionali 3D e dei trasformatori video esistenti. Il suo operatore a complessità lineare consente una modellazione efficiente a lungo termine, cruciale per la comprensione di video lunghi ad alta risoluzione. Valutazioni estensive rivelano le quattro capacità fondamentali di VideoMamba: (1) Scalabilità nel dominio visivo senza un ampio pre-addestramento su dataset, grazie a una nuova tecnica di auto-distillazione; (2) Sensibilità nel riconoscimento di azioni a breve termine anche con differenze di movimento finemente dettagliate; (3) Superiorità nella comprensione di video a lungo termine, mostrando progressi significativi rispetto ai modelli basati su caratteristiche tradizionali; e (4) Compatibilità con altre modalità, dimostrando robustezza in contesti multi-modali. Attraverso questi distinti vantaggi, VideoMamba stabilisce un nuovo punto di riferimento per la comprensione video, offrendo una soluzione scalabile ed efficiente per una comprensione video completa. Tutti i codici e i modelli sono disponibili su https://github.com/OpenGVLab/VideoMamba.
English
Addressing the dual challenges of local redundancy and global dependencies in
video understanding, this work innovatively adapts the Mamba to the video
domain. The proposed VideoMamba overcomes the limitations of existing 3D
convolution neural networks and video transformers. Its linear-complexity
operator enables efficient long-term modeling, which is crucial for
high-resolution long video understanding. Extensive evaluations reveal
VideoMamba's four core abilities: (1) Scalability in the visual domain without
extensive dataset pretraining, thanks to a novel self-distillation technique;
(2) Sensitivity for recognizing short-term actions even with fine-grained
motion differences; (3) Superiority in long-term video understanding,
showcasing significant advancements over traditional feature-based models; and
(4) Compatibility with other modalities, demonstrating robustness in
multi-modal contexts. Through these distinct advantages, VideoMamba sets a new
benchmark for video understanding, offering a scalable and efficient solution
for comprehensive video understanding. All the code and models are available at
https://github.com/OpenGVLab/VideoMamba.