VMamba: ビジュアル状態空間モデル
VMamba: Visual State Space Model
January 18, 2024
著者: Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu
cs.AI
要旨
畳み込みニューラルネットワーク(CNN)とVision Transformers(ViT)は、視覚表現学習における最も人気のある基盤モデルとして位置づけられています。CNNは画像解像度に対して線形の計算量で優れたスケーラビリティを示す一方、ViTは二次的な計算量を伴うものの、モデルの適合能力においてCNNを凌駕しています。詳細に観察すると、ViTはグローバルな受容野と動的な重み付けを組み込むことで、優れた視覚モデリング性能を実現していることがわかります。この知見を踏まえ、我々はこれらの要素を継承しつつ計算効率を向上させる新たなアーキテクチャを提案します。そのために、最近導入された状態空間モデルに着想を得て、グローバルな受容野を維持しながら線形計算量を実現するVisual State Space Model(VMamba)を提案します。また、方向性に敏感な問題に対処するため、空間領域を横断し非因果的な視覚画像を順序付きパッチ列に変換するCross-Scan Module(CSM)を導入します。大規模な実験結果により、VMambaが様々な視覚知覚タスクにおいて有望な能力を示すだけでなく、画像解像度が増加するにつれて確立されたベンチマークに対してより顕著な優位性を示すことが実証されました。ソースコードはhttps://github.com/MzeroMiko/VMambaで公開されています。
English
Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as
the two most popular foundation models for visual representation learning.
While CNNs exhibit remarkable scalability with linear complexity w.r.t. image
resolution, ViTs surpass them in fitting capabilities despite contending with
quadratic complexity. A closer inspection reveals that ViTs achieve superior
visual modeling performance through the incorporation of global receptive
fields and dynamic weights. This observation motivates us to propose a novel
architecture that inherits these components while enhancing computational
efficiency. To this end, we draw inspiration from the recently introduced state
space model and propose the Visual State Space Model (VMamba), which achieves
linear complexity without sacrificing global receptive fields. To address the
encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM)
to traverse the spatial domain and convert any non-causal visual image into
order patch sequences. Extensive experimental results substantiate that VMamba
not only demonstrates promising capabilities across various visual perception
tasks, but also exhibits more pronounced advantages over established benchmarks
as the image resolution increases. Source code has been available at
https://github.com/MzeroMiko/VMamba.