VideoMamba: Modello a Spazio di Stati per una Comprensione Efficiente dei Video

Abstract

Affrontando le doppie sfide della ridondanza locale e delle dipendenze globali nella comprensione video, questo lavoro adatta in modo innovativo il Mamba al dominio video. Il VideoMamba proposto supera i limiti delle reti neurali convoluzionali 3D e dei trasformatori video esistenti. Il suo operatore a complessità lineare consente una modellazione efficiente a lungo termine, cruciale per la comprensione di video lunghi ad alta risoluzione. Valutazioni estensive rivelano le quattro capacità fondamentali di VideoMamba: (1) Scalabilità nel dominio visivo senza un ampio pre-addestramento su dataset, grazie a una nuova tecnica di auto-distillazione; (2) Sensibilità nel riconoscimento di azioni a breve termine anche con differenze di movimento finemente dettagliate; (3) Superiorità nella comprensione di video a lungo termine, mostrando progressi significativi rispetto ai modelli basati su caratteristiche tradizionali; e (4) Compatibilità con altre modalità, dimostrando robustezza in contesti multi-modali. Attraverso questi distinti vantaggi, VideoMamba stabilisce un nuovo punto di riferimento per la comprensione video, offrendo una soluzione scalabile ed efficiente per una comprensione video completa. Tutti i codici e i modelli sono disponibili su https://github.com/OpenGVLab/VideoMamba.

English

Addressing the dual challenges of local redundancy and global dependencies in video understanding, this work innovatively adapts the Mamba to the video domain. The proposed VideoMamba overcomes the limitations of existing 3D convolution neural networks and video transformers. Its linear-complexity operator enables efficient long-term modeling, which is crucial for high-resolution long video understanding. Extensive evaluations reveal VideoMamba's four core abilities: (1) Scalability in the visual domain without extensive dataset pretraining, thanks to a novel self-distillation technique; (2) Sensitivity for recognizing short-term actions even with fine-grained motion differences; (3) Superiority in long-term video understanding, showcasing significant advancements over traditional feature-based models; and (4) Compatibility with other modalities, demonstrating robustness in multi-modal contexts. Through these distinct advantages, VideoMamba sets a new benchmark for video understanding, offering a scalable and efficient solution for comprehensive video understanding. All the code and models are available at https://github.com/OpenGVLab/VideoMamba.

VideoMamba: Modello a Spazio di Stati per una Comprensione Efficiente dei Video

VideoMamba: State Space Model for Efficient Video Understanding

Abstract

Support