LocalMamba : Modèle d'espace d'états visuel avec balayage sélectif fenêtré
LocalMamba: Visual State Space Model with Windowed Selective Scan
March 14, 2024
Auteurs: Tao Huang, Xiaohuan Pei, Shan You, Fei Wang, Chen Qian, Chang Xu
cs.AI
Résumé
Les récents progrès dans les modèles d'espace d'états, notamment Mamba, ont démontré des avancées significatives dans la modélisation de longues séquences pour des tâches telles que la compréhension du langage. Cependant, leur application dans les tâches de vision n'a pas dépassé de manière notable les performances des réseaux de neurones convolutifs (CNN) traditionnels et des Vision Transformers (ViTs). Cet article postule que la clé pour améliorer Vision Mamba (ViM) réside dans l'optimisation des directions de balayage pour la modélisation de séquences. Les approches traditionnelles de ViM, qui aplatissent les tokens spatiaux, négligent la préservation des dépendances locales 2D, allongeant ainsi la distance entre les tokens adjacents. Nous introduisons une nouvelle stratégie de balayage local qui divise les images en fenêtres distinctes, capturant efficacement les dépendances locales tout en maintenant une perspective globale. De plus, en reconnaissant les préférences variables pour les motifs de balayage à travers les différentes couches du réseau, nous proposons une méthode dynamique pour rechercher indépendamment les choix de balayage optimaux pour chaque couche, améliorant ainsi considérablement les performances. Des expériences approfondies sur des modèles à la fois simples et hiérarchiques soulignent la supériorité de notre approche dans la capture efficace des représentations d'images. Par exemple, notre modèle surpasse significativement Vim-Ti de 3,1 % sur ImageNet avec les mêmes 1,5G FLOPs. Le code est disponible à l'adresse : https://github.com/hunto/LocalMamba.
English
Recent advancements in state space models, notably Mamba, have demonstrated
significant progress in modeling long sequences for tasks like language
understanding. Yet, their application in vision tasks has not markedly
surpassed the performance of traditional Convolutional Neural Networks (CNNs)
and Vision Transformers (ViTs). This paper posits that the key to enhancing
Vision Mamba (ViM) lies in optimizing scan directions for sequence modeling.
Traditional ViM approaches, which flatten spatial tokens, overlook the
preservation of local 2D dependencies, thereby elongating the distance between
adjacent tokens. We introduce a novel local scanning strategy that divides
images into distinct windows, effectively capturing local dependencies while
maintaining a global perspective. Additionally, acknowledging the varying
preferences for scan patterns across different network layers, we propose a
dynamic method to independently search for the optimal scan choices for each
layer, substantially improving performance. Extensive experiments across both
plain and hierarchical models underscore our approach's superiority in
effectively capturing image representations. For example, our model
significantly outperforms Vim-Ti by 3.1% on ImageNet with the same 1.5G FLOPs.
Code is available at: https://github.com/hunto/LocalMamba.Summary
AI-Generated Summary