Sigma: マルチモーダル意味分割のためのシャム・マンバ・ネットワーク
Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation
April 5, 2024
著者: Zifu Wan, Yuhao Wang, Silong Yong, Pingping Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie
cs.AI
要旨
マルチモーダルセマンティックセグメンテーションは、AIエージェントの知覚とシーン理解を大幅に向上させ、特に低照度や露出過多といった悪条件下において有効です。従来のRGBに加えて、熱画像や深度情報といった追加モダリティ(Xモダリティ)を活用することで、補完的な情報を提供し、より堅牢で信頼性の高いセグメンテーションを実現します。本研究では、Selective Structured State Space ModelであるMambaを利用したSiamese Mambaネットワーク、Sigmaを導入します。従来のCNN(局所的な受容野に制限がある)やVision Transformers(ViTs)(二次の計算複雑性を伴うがグローバルな受容野を提供)とは異なり、我々のモデルは線形の計算複雑性でグローバルな受容野をカバーします。Siameseエンコーダを採用し、Mamba融合メカニズムを革新することで、異なるモダリティから必要な情報を効果的に選択します。さらに、デコーダを開発し、モデルのチャネル単位のモデリング能力を向上させます。我々の手法、Sigmaは、RGB-熱画像およびRGB-深度セグメンテーションタスクにおいて厳密に評価され、その優位性を示し、State Space Models(SSMs)のマルチモーダル知覚タスクへの初の成功した応用を記録しました。コードはhttps://github.com/zifuwan/Sigmaで公開されています。
English
Multi-modal semantic segmentation significantly enhances AI agents'
perception and scene understanding, especially under adverse conditions like
low-light or overexposed environments. Leveraging additional modalities
(X-modality) like thermal and depth alongside traditional RGB provides
complementary information, enabling more robust and reliable segmentation. In
this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic
segmentation, utilizing the Selective Structured State Space Model, Mamba.
Unlike conventional methods that rely on CNNs, with their limited local
receptive fields, or Vision Transformers (ViTs), which offer global receptive
fields at the cost of quadratic complexity, our model achieves global receptive
fields coverage with linear complexity. By employing a Siamese encoder and
innovating a Mamba fusion mechanism, we effectively select essential
information from different modalities. A decoder is then developed to enhance
the channel-wise modeling ability of the model. Our method, Sigma, is
rigorously evaluated on both RGB-Thermal and RGB-Depth segmentation tasks,
demonstrating its superiority and marking the first successful application of
State Space Models (SSMs) in multi-modal perception tasks. Code is available at
https://github.com/zifuwan/Sigma.Summary
AI-Generated Summary