ChatPaper.aiChatPaper

MambaVision: Een Hybride Mamba-Transformer Visuele Backbone

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

July 10, 2024
Auteurs: Ali Hatamizadeh, Jan Kautz
cs.AI

Samenvatting

We stellen een nieuwe hybride Mamba-Transformer backbone voor, genaamd MambaVision, die specifiek is ontworpen voor visuele toepassingen. Onze kernbijdrage omvat het herontwerpen van de Mamba-formulering om de mogelijkheden voor efficiënte modellering van visuele kenmerken te verbeteren. Daarnaast voeren we een uitgebreide ablatiestudie uit naar de haalbaarheid van het integreren van Vision Transformers (ViT) met Mamba. Onze resultaten tonen aan dat het uitrusten van de Mamba-architectuur met verschillende self-attention blokken in de laatste lagen de modelleringscapaciteit om langetermijn ruimtelijke afhankelijkheden vast te leggen aanzienlijk verbetert. Op basis van onze bevindingen introduceren we een familie van MambaVision-modellen met een hiërarchische architectuur om aan verschillende ontwerpcriteria te voldoen. Voor beeldclassificatie op de ImageNet-1K dataset bereiken de MambaVision-modelvarianten een nieuwe State-of-the-Art (SOTA) prestaties in termen van Top-1 nauwkeurigheid en beelddoorvoer. In downstream taken zoals objectdetectie, instantiesegmentatie en semantische segmentatie op de MS COCO en ADE20K datasets, presteert MambaVision beter dan vergelijkbaar grote backbones en toont het een gunstigere prestaties. Code: https://github.com/NVlabs/MambaVision.
English
We propose a novel hybrid Mamba-Transformer backbone, denoted as MambaVision, which is specifically tailored for vision applications. Our core contribution includes redesigning the Mamba formulation to enhance its capability for efficient modeling of visual features. In addition, we conduct a comprehensive ablation study on the feasibility of integrating Vision Transformers (ViT) with Mamba. Our results demonstrate that equipping the Mamba architecture with several self-attention blocks at the final layers greatly improves the modeling capacity to capture long-range spatial dependencies. Based on our findings, we introduce a family of MambaVision models with a hierarchical architecture to meet various design criteria. For Image classification on ImageNet-1K dataset, MambaVision model variants achieve a new State-of-the-Art (SOTA) performance in terms of Top-1 accuracy and image throughput. In downstream tasks such as object detection, instance segmentation and semantic segmentation on MS COCO and ADE20K datasets, MambaVision outperforms comparably-sized backbones and demonstrates more favorable performance. Code: https://github.com/NVlabs/MambaVision.
PDF325February 7, 2026