Vamba : Comprendre des vidéos d'une heure avec des architectures hybrides Mamba-Transformers
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
March 14, 2025
Auteurs: Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen
cs.AI
Résumé
Les modèles multimodaux de grande taille (LMMs) basés sur des transformateurs de pointe rencontrent des difficultés à traiter des entrées vidéo d'une heure en raison de la complexité quadratique des opérations d'auto-attention causale, entraînant des coûts de calcul élevés pendant l'entraînement et l'inférence. Les méthodes existantes basées sur la compression de tokens réduisent le nombre de tokens vidéo, mais entraînent souvent une perte d'information et restent inefficaces pour les séquences extrêmement longues. Dans cet article, nous explorons une direction orthogonale pour construire un modèle hybride Mamba-Transformer (VAMBA) qui utilise des blocs Mamba-2 pour encoder les tokens vidéo avec une complexité linéaire. Sans aucune réduction de tokens, VAMBA peut encoder plus de 1024 images (640x360) sur un seul GPU, tandis que les modèles basés sur des transformateurs ne peuvent encoder que 256 images. Sur des entrées vidéo longues, VAMBA permet une réduction d'au moins 50 % de l'utilisation de la mémoire GPU pendant l'entraînement et l'inférence, et double presque la vitesse par étape d'entraînement par rapport aux LMMs basés sur des transformateurs. Nos résultats expérimentaux montrent que VAMBA améliore la précision de 4,3 % sur le benchmark exigeant de compréhension de vidéos d'une heure LVBench par rapport aux LMMs vidéo efficaces précédents, et maintient de solides performances sur un large éventail de tâches de compréhension de vidéos longues et courtes.
English
State-of-the-art transformer-based large multimodal models (LMMs) struggle to
handle hour-long video inputs due to the quadratic complexity of the causal
self-attention operations, leading to high computational costs during training
and inference. Existing token compression-based methods reduce the number of
video tokens but often incur information loss and remain inefficient for
extremely long sequences. In this paper, we explore an orthogonal direction to
build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to
encode video tokens with linear complexity. Without any token reduction, VAMBA
can encode more than 1024 frames (640times360) on a single GPU, while
transformer-based models can only encode 256 frames. On long video input, VAMBA
achieves at least 50% reduction in GPU memory usage during training and
inference, and nearly doubles the speed per training step compared to
transformer-based LMMs. Our experimental results demonstrate that VAMBA
improves accuracy by 4.3% on the challenging hour-long video understanding
benchmark LVBench over prior efficient video LMMs, and maintains strong
performance on a broad spectrum of long and short video understanding tasks.Summary
AI-Generated Summary