MambaVision : Une architecture hybride Mamba-Transformer pour la vision
MambaVision: A Hybrid Mamba-Transformer Vision Backbone
July 10, 2024
Auteurs: Ali Hatamizadeh, Jan Kautz
cs.AI
Résumé
Nous proposons une nouvelle architecture hybride Mamba-Transformer, dénommée MambaVision, spécialement conçue pour les applications de vision par ordinateur. Notre contribution principale inclut la refonte de la formulation Mamba afin d'améliorer sa capacité à modéliser efficacement les caractéristiques visuelles. De plus, nous menons une étude d'ablation approfondie sur la faisabilité d'intégrer les Vision Transformers (ViT) avec Mamba. Nos résultats démontrent que l'ajout de plusieurs blocs d'auto-attention aux couches finales de l'architecture Mamba améliore considérablement la capacité de modélisation pour capturer les dépendances spatiales à longue portée. Sur la base de ces constatations, nous introduisons une famille de modèles MambaVision avec une architecture hiérarchique pour répondre à divers critères de conception. Pour la classification d'images sur le jeu de données ImageNet-1K, les variantes du modèle MambaVision atteignent une nouvelle performance de pointe (State-of-the-Art, SOTA) en termes de précision Top-1 et de débit d'images. Dans les tâches en aval telles que la détection d'objets, la segmentation d'instances et la segmentation sémantique sur les jeux de données MS COCO et ADE20K, MambaVision surpasse les architectures de taille comparable et démontre des performances plus favorables. Code : https://github.com/NVlabs/MambaVision.
English
We propose a novel hybrid Mamba-Transformer backbone, denoted as MambaVision,
which is specifically tailored for vision applications. Our core contribution
includes redesigning the Mamba formulation to enhance its capability for
efficient modeling of visual features. In addition, we conduct a comprehensive
ablation study on the feasibility of integrating Vision Transformers (ViT) with
Mamba. Our results demonstrate that equipping the Mamba architecture with
several self-attention blocks at the final layers greatly improves the modeling
capacity to capture long-range spatial dependencies. Based on our findings, we
introduce a family of MambaVision models with a hierarchical architecture to
meet various design criteria. For Image classification on ImageNet-1K dataset,
MambaVision model variants achieve a new State-of-the-Art (SOTA) performance in
terms of Top-1 accuracy and image throughput. In downstream tasks such as
object detection, instance segmentation and semantic segmentation on MS COCO
and ADE20K datasets, MambaVision outperforms comparably-sized backbones and
demonstrates more favorable performance. Code:
https://github.com/NVlabs/MambaVision.Summary
AI-Generated Summary