EfficientViM: Эффективная видеомамба с смешивателем скрытого состояния на основе двойственности пространства состояний.
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality
November 22, 2024
Авторы: Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim
cs.AI
Аннотация
Для развертывания нейронных сетей в ресурсоограниченных средах, предшествующие работы создали легковесные архитектуры с использованием сверток и внимания для захвата локальных и глобальных зависимостей соответственно. Недавно модель пространства состояний стала эффективным глобальным взаимодействием токенов благодаря своей выгодной линейной вычислительной стоимости по количеству токенов. Тем не менее, эффективные основы зрения, построенные на SSM, были исследованы менее подробно. В данной статье мы представляем Efficient Vision Mamba (EfficientViM), новую архитектуру, построенную на основе дуализма пространства состояний на основе смесителя скрытых состояний (HSM-SSD), которая эффективно захватывает глобальные зависимости с дальнейшим снижением вычислительных затрат. В слое HSM-SSD мы перерабатываем предыдущий слой SSD для выполнения операции смешивания каналов внутри скрытых состояний. Кроме того, мы предлагаем многоступенчатое слияние скрытых состояний для дальнейшего укрепления мощности представления скрытых состояний и предоставляем дизайн, смягчающий узкое место, вызванное операциями, связанными с памятью. В результате семейство EfficientViM достигает нового state-of-the-art баланса скорость-точность на ImageNet-1k, предлагая улучшение производительности до 0,7% по сравнению со второй лучшей моделью SHViT с более высокой скоростью. Кроме того, мы наблюдаем значительные улучшения в пропускной способности и точности по сравнению с предыдущими работами при масштабировании изображений или использовании обучения дистилляции. Код доступен по адресу https://github.com/mlvlab/EfficientViM.
English
For the deployment of neural networks in resource-constrained environments,
prior works have built lightweight architectures with convolution and attention
for capturing local and global dependencies, respectively. Recently, the state
space model has emerged as an effective global token interaction with its
favorable linear computational cost in the number of tokens. Yet, efficient
vision backbones built with SSM have been explored less. In this paper, we
introduce Efficient Vision Mamba (EfficientViM), a novel architecture built on
hidden state mixer-based state space duality (HSM-SSD) that efficiently
captures global dependencies with further reduced computational cost. In the
HSM-SSD layer, we redesign the previous SSD layer to enable the channel mixing
operation within hidden states. Additionally, we propose multi-stage hidden
state fusion to further reinforce the representation power of hidden states,
and provide the design alleviating the bottleneck caused by the memory-bound
operations. As a result, the EfficientViM family achieves a new
state-of-the-art speed-accuracy trade-off on ImageNet-1k, offering up to a 0.7%
performance improvement over the second-best model SHViT with faster speed.
Further, we observe significant improvements in throughput and accuracy
compared to prior works, when scaling images or employing distillation
training. Code is available at https://github.com/mlvlab/EfficientViM.Summary
AI-Generated Summary