ChatPaper.aiChatPaper

VMamba: ビジュアル状態空間モデル

VMamba: Visual State Space Model

January 18, 2024
著者: Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu
cs.AI

要旨

畳み込みニューラルネットワーク(CNN)とVision Transformers(ViT)は、視覚表現学習における最も人気のある基盤モデルとして位置づけられています。CNNは画像解像度に対して線形の計算量で優れたスケーラビリティを示す一方、ViTは二次的な計算量を伴うものの、モデルの適合能力においてCNNを凌駕しています。詳細に観察すると、ViTはグローバルな受容野と動的な重み付けを組み込むことで、優れた視覚モデリング性能を実現していることがわかります。この知見を踏まえ、我々はこれらの要素を継承しつつ計算効率を向上させる新たなアーキテクチャを提案します。そのために、最近導入された状態空間モデルに着想を得て、グローバルな受容野を維持しながら線形計算量を実現するVisual State Space Model(VMamba)を提案します。また、方向性に敏感な問題に対処するため、空間領域を横断し非因果的な視覚画像を順序付きパッチ列に変換するCross-Scan Module(CSM)を導入します。大規模な実験結果により、VMambaが様々な視覚知覚タスクにおいて有望な能力を示すだけでなく、画像解像度が増加するにつれて確立されたベンチマークに対してより顕著な優位性を示すことが実証されました。ソースコードはhttps://github.com/MzeroMiko/VMambaで公開されています。
English
Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as the two most popular foundation models for visual representation learning. While CNNs exhibit remarkable scalability with linear complexity w.r.t. image resolution, ViTs surpass them in fitting capabilities despite contending with quadratic complexity. A closer inspection reveals that ViTs achieve superior visual modeling performance through the incorporation of global receptive fields and dynamic weights. This observation motivates us to propose a novel architecture that inherits these components while enhancing computational efficiency. To this end, we draw inspiration from the recently introduced state space model and propose the Visual State Space Model (VMamba), which achieves linear complexity without sacrificing global receptive fields. To address the encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM) to traverse the spatial domain and convert any non-causal visual image into order patch sequences. Extensive experimental results substantiate that VMamba not only demonstrates promising capabilities across various visual perception tasks, but also exhibits more pronounced advantages over established benchmarks as the image resolution increases. Source code has been available at https://github.com/MzeroMiko/VMamba.
PDF402December 15, 2024