ChatPaper.aiChatPaper

MambaVision: Uma Espinha Dorsal de Visão Híbrida Mamba-Transformer

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

July 10, 2024
Autores: Ali Hatamizadeh, Jan Kautz
cs.AI

Resumo

Propomos uma nova espinha dorsal híbrida Mamba-Transformer, denominada MambaVision, especialmente desenvolvida para aplicações de visão. Nossa contribuição principal inclui o redesenho da formulação Mamba para aprimorar sua capacidade de modelagem eficiente de características visuais. Além disso, realizamos um estudo abrangente de ablação sobre a viabilidade de integrar Transformadores de Visão (ViT) com o Mamba. Nossos resultados demonstram que equipar a arquitetura Mamba com vários blocos de autoatenção nas camadas finais melhora significativamente a capacidade de modelagem para capturar dependências espaciais de longo alcance. Com base em nossas descobertas, introduzimos uma família de modelos MambaVision com uma arquitetura hierárquica para atender a vários critérios de design. Para classificação de imagens no conjunto de dados ImageNet-1K, as variantes do modelo MambaVision alcançam um novo desempenho de Estado da Arte (SOTA) em termos de precisão Top-1 e throughput de imagem. Em tarefas subsequentes, como detecção de objetos, segmentação de instâncias e segmentação semântica nos conjuntos de dados MS COCO e ADE20K, o MambaVision supera espinhas dorsais de tamanho comparável e demonstra um desempenho mais favorável. Código: https://github.com/NVlabs/MambaVision.
English
We propose a novel hybrid Mamba-Transformer backbone, denoted as MambaVision, which is specifically tailored for vision applications. Our core contribution includes redesigning the Mamba formulation to enhance its capability for efficient modeling of visual features. In addition, we conduct a comprehensive ablation study on the feasibility of integrating Vision Transformers (ViT) with Mamba. Our results demonstrate that equipping the Mamba architecture with several self-attention blocks at the final layers greatly improves the modeling capacity to capture long-range spatial dependencies. Based on our findings, we introduce a family of MambaVision models with a hierarchical architecture to meet various design criteria. For Image classification on ImageNet-1K dataset, MambaVision model variants achieve a new State-of-the-Art (SOTA) performance in terms of Top-1 accuracy and image throughput. In downstream tasks such as object detection, instance segmentation and semantic segmentation on MS COCO and ADE20K datasets, MambaVision outperforms comparably-sized backbones and demonstrates more favorable performance. Code: https://github.com/NVlabs/MambaVision.
PDF335November 28, 2024