MambaVision: Una Espina Dorsal de Visión Híbrida Mamba-Transformer
MambaVision: A Hybrid Mamba-Transformer Vision Backbone
July 10, 2024
Autores: Ali Hatamizadeh, Jan Kautz
cs.AI
Resumen
Proponemos una nueva estructura híbrida Mamba-Transformer, denominada MambaVision, diseñada específicamente para aplicaciones de visión. Nuestra contribución principal incluye la reconfiguración de la formulación Mamba para mejorar su capacidad de modelado eficiente de características visuales. Además, realizamos un estudio exhaustivo de ablación sobre la viabilidad de integrar Transformadores de Visión (ViT) con Mamba. Nuestros resultados demuestran que dotar a la arquitectura Mamba con varios bloques de autoatención en las capas finales mejora significativamente la capacidad de modelado para capturar dependencias espaciales de largo alcance. Basándonos en nuestros hallazgos, presentamos una familia de modelos MambaVision con una arquitectura jerárquica para cumplir con diversos criterios de diseño. Para la clasificación de imágenes en el conjunto de datos ImageNet-1K, las variantes del modelo MambaVision logran un nuevo rendimiento de Estado del Arte (SOTA) en términos de precisión Top-1 y rendimiento de imágenes. En tareas posteriores como detección de objetos, segmentación de instancias y segmentación semántica en los conjuntos de datos MS COCO y ADE20K, MambaVision supera a estructuras de tamaño comparable y muestra un rendimiento más favorable. Código: https://github.com/NVlabs/MambaVision.
English
We propose a novel hybrid Mamba-Transformer backbone, denoted as MambaVision,
which is specifically tailored for vision applications. Our core contribution
includes redesigning the Mamba formulation to enhance its capability for
efficient modeling of visual features. In addition, we conduct a comprehensive
ablation study on the feasibility of integrating Vision Transformers (ViT) with
Mamba. Our results demonstrate that equipping the Mamba architecture with
several self-attention blocks at the final layers greatly improves the modeling
capacity to capture long-range spatial dependencies. Based on our findings, we
introduce a family of MambaVision models with a hierarchical architecture to
meet various design criteria. For Image classification on ImageNet-1K dataset,
MambaVision model variants achieve a new State-of-the-Art (SOTA) performance in
terms of Top-1 accuracy and image throughput. In downstream tasks such as
object detection, instance segmentation and semantic segmentation on MS COCO
and ADE20K datasets, MambaVision outperforms comparably-sized backbones and
demonstrates more favorable performance. Code:
https://github.com/NVlabs/MambaVision.Summary
AI-Generated Summary