ChatPaper.aiChatPaper

MambaVision: Ein hybrides Mamba-Transformer-Vision-Rückgrat

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

July 10, 2024
Autoren: Ali Hatamizadeh, Jan Kautz
cs.AI

Zusammenfassung

Wir schlagen eine neuartige hybride Mamba-Transformer-Grundstruktur vor, die als MambaVision bezeichnet wird und speziell für Anwendungen im Bereich der Bildverarbeitung entwickelt wurde. Unser Hauptbeitrag umfasst die Neugestaltung der Mamba-Formulierung, um ihre Fähigkeit zur effizienten Modellierung visueller Merkmale zu verbessern. Darüber hinaus führen wir eine umfassende Ablationsstudie zur Machbarkeit der Integration von Vision-Transformern (ViT) mit Mamba durch. Unsere Ergebnisse zeigen, dass die Ausstattung der Mamba-Architektur mit mehreren Self-Attention-Blöcken in den finalen Schichten die Modellierungskapazität erheblich verbessert, um weitreichende räumliche Abhängigkeiten zu erfassen. Basierend auf unseren Erkenntnissen stellen wir eine Familie von MambaVision-Modellen mit einer hierarchischen Architektur vor, um verschiedenen Designkriterien gerecht zu werden. Für die Bildklassifizierung auf dem ImageNet-1K-Datensatz erreichen MambaVision-Modellvarianten eine neue State-of-the-Art (SOTA)-Leistung in Bezug auf die Top-1-Genauigkeit und die Bildverarbeitungsgeschwindigkeit. In nachgelagerten Aufgaben wie Objekterkennung, Instanzsegmentierung und semantische Segmentierung auf den Datensätzen MS COCO und ADE20K übertrifft MambaVision vergleichbar große Grundstrukturen und zeigt eine günstigere Leistung. Code: https://github.com/NVlabs/MambaVision.
English
We propose a novel hybrid Mamba-Transformer backbone, denoted as MambaVision, which is specifically tailored for vision applications. Our core contribution includes redesigning the Mamba formulation to enhance its capability for efficient modeling of visual features. In addition, we conduct a comprehensive ablation study on the feasibility of integrating Vision Transformers (ViT) with Mamba. Our results demonstrate that equipping the Mamba architecture with several self-attention blocks at the final layers greatly improves the modeling capacity to capture long-range spatial dependencies. Based on our findings, we introduce a family of MambaVision models with a hierarchical architecture to meet various design criteria. For Image classification on ImageNet-1K dataset, MambaVision model variants achieve a new State-of-the-Art (SOTA) performance in terms of Top-1 accuracy and image throughput. In downstream tasks such as object detection, instance segmentation and semantic segmentation on MS COCO and ADE20K datasets, MambaVision outperforms comparably-sized backbones and demonstrates more favorable performance. Code: https://github.com/NVlabs/MambaVision.

Summary

AI-Generated Summary

PDF335November 28, 2024