EfficientViM : Mamba de Vision Efficace avec un Mélangeur d'États Cachés basé sur la Dualité de l'Espace d'États

EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

November 22, 2024
Auteurs: Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim
cs.AI

Résumé

Pour le déploiement de réseaux neuronaux dans des environnements aux ressources limitées, des travaux antérieurs ont construit des architectures légères avec des convolutions et de l'attention pour capturer respectivement les dépendances locales et globales. Récemment, le modèle d'espace d'états a émergé comme une interaction de jeton global efficace avec son coût computationnel linéaire favorable en fonction du nombre de jetons. Cependant, les architectures de vision efficaces construites avec SSM ont été moins explorées. Dans cet article, nous introduisons Efficient Vision Mamba (EfficientViM), une architecture novatrice construite sur la dualité de l'espace d'états basée sur le mélangeur d'états cachés (HSM-SSD) qui capture efficacement les dépendances globales avec un coût computationnel réduit. Dans la couche HSM-SSD, nous redessinons la couche SSD précédente pour permettre l'opération de mélange de canaux au sein des états cachés. De plus, nous proposons une fusion d'états cachés multi-étapes pour renforcer davantage la puissance de représentation des états cachés, et fournissons la conception atténuant le goulot d'étranglement causé par les opérations liées à la mémoire. En conséquence, la famille EfficientViM atteint un nouvel équilibre vitesse-précision de pointe sur ImageNet-1k, offrant jusqu'à une amélioration de performance de 0,7% par rapport au deuxième meilleur modèle SHViT avec une vitesse plus rapide. De plus, nous observons des améliorations significatives en termes de débit et de précision par rapport aux travaux antérieurs, lors de la mise à l'échelle des images ou de l'utilisation de l'entraînement par distillation. Le code est disponible sur https://github.com/mlvlab/EfficientViM.
English
For the deployment of neural networks in resource-constrained environments, prior works have built lightweight architectures with convolution and attention for capturing local and global dependencies, respectively. Recently, the state space model has emerged as an effective global token interaction with its favorable linear computational cost in the number of tokens. Yet, efficient vision backbones built with SSM have been explored less. In this paper, we introduce Efficient Vision Mamba (EfficientViM), a novel architecture built on hidden state mixer-based state space duality (HSM-SSD) that efficiently captures global dependencies with further reduced computational cost. In the HSM-SSD layer, we redesign the previous SSD layer to enable the channel mixing operation within hidden states. Additionally, we propose multi-stage hidden state fusion to further reinforce the representation power of hidden states, and provide the design alleviating the bottleneck caused by the memory-bound operations. As a result, the EfficientViM family achieves a new state-of-the-art speed-accuracy trade-off on ImageNet-1k, offering up to a 0.7% performance improvement over the second-best model SHViT with faster speed. Further, we observe significant improvements in throughput and accuracy compared to prior works, when scaling images or employing distillation training. Code is available at https://github.com/mlvlab/EfficientViM.

Summary

AI-Generated Summary

PDF62November 27, 2024