ChatPaper.aiChatPaper

EfficientViM: Efficiënte Vision Mamba met Hidden State Mixer gebaseerde Staatruimte Dualiteit

EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

November 22, 2024
Auteurs: Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim
cs.AI

Samenvatting

Voor de implementatie van neurale netwerken in omgevingen met beperkte middelen, hebben eerdere werken lichtgewicht architecturen gebouwd met convolutie en aandacht om respectievelijk lokale en globale afhankelijkheden vast te leggen. Onlangs is het toestandsruimtemodel naar voren gekomen als een effectieve wereldwijde tokeninteractie met zijn gunstige lineaire rekenkundige kosten in het aantal tokens. Toch zijn efficiënte visuele backbones gebouwd met SSM minder onderzocht. In dit artikel introduceren we Efficient Vision Mamba (EfficientViM), een nieuw architectuur gebouwd op verborgen-toestandsmenger-gebaseerde toestandsruimtedualiteit (HSM-SSD) die efficiënt globale afhankelijkheden vastlegt met verder verminderde rekenkundige kosten. In de HSM-SSD-laag passen we de vorige SSD-laag aan om de kanaalmengoperatie binnen verborgen toestanden mogelijk te maken. Daarnaast stellen we multi-stage verborgen-toestandsfusie voor om de representatiekracht van verborgen toestanden verder te versterken, en bieden we het ontwerp dat de bottleneck veroorzaakt door geheugen-gebonden operaties verlicht. Als gevolg hiervan bereikt de EfficientViM-familie een nieuwe state-of-the-art snelheid-nauwkeurigheid balans op ImageNet-1k, met een prestatieverbetering tot 0.7% ten opzichte van het op één na beste model SHViT met een snellere snelheid. Bovendien observeren we aanzienlijke verbeteringen in doorvoer en nauwkeurigheid in vergelijking met eerdere werken, bij het schalen van afbeeldingen of bij het toepassen van distillatie training. De code is beschikbaar op https://github.com/mlvlab/EfficientViM.
English
For the deployment of neural networks in resource-constrained environments, prior works have built lightweight architectures with convolution and attention for capturing local and global dependencies, respectively. Recently, the state space model has emerged as an effective global token interaction with its favorable linear computational cost in the number of tokens. Yet, efficient vision backbones built with SSM have been explored less. In this paper, we introduce Efficient Vision Mamba (EfficientViM), a novel architecture built on hidden state mixer-based state space duality (HSM-SSD) that efficiently captures global dependencies with further reduced computational cost. In the HSM-SSD layer, we redesign the previous SSD layer to enable the channel mixing operation within hidden states. Additionally, we propose multi-stage hidden state fusion to further reinforce the representation power of hidden states, and provide the design alleviating the bottleneck caused by the memory-bound operations. As a result, the EfficientViM family achieves a new state-of-the-art speed-accuracy trade-off on ImageNet-1k, offering up to a 0.7% performance improvement over the second-best model SHViT with faster speed. Further, we observe significant improvements in throughput and accuracy compared to prior works, when scaling images or employing distillation training. Code is available at https://github.com/mlvlab/EfficientViM.

Summary

AI-Generated Summary

PDF62November 27, 2024