ChatPaper.aiChatPaper

Sigma : Réseau Mamba Siamese pour la Segmentation Sémantique Multi-Modale

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

April 5, 2024
Auteurs: Zifu Wan, Yuhao Wang, Silong Yong, Pingping Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie
cs.AI

Résumé

La segmentation sémantique multi-modale améliore significativement la perception et la compréhension des scènes par les agents d'IA, en particulier dans des conditions difficiles comme les environnements à faible luminosité ou surexposés. L'utilisation de modalités supplémentaires (X-modalité) telles que l'imagerie thermique et la profondeur, en complément des traditionnelles images RGB, fournit des informations complémentaires, permettant une segmentation plus robuste et fiable. Dans ce travail, nous présentons Sigma, un réseau Siamese Mamba pour la segmentation sémantique multi-modale, exploitant le modèle d'espace d'état structuré sélectif, Mamba. Contrairement aux méthodes conventionnelles qui reposent sur les réseaux de neurones convolutifs (CNN), avec leurs champs récepteurs locaux limités, ou les Vision Transformers (ViTs), qui offrent des champs récepteurs globaux au prix d'une complexité quadratique, notre modèle atteint une couverture globale des champs récepteurs avec une complexité linéaire. En utilisant un encodeur Siamese et en innovant avec un mécanisme de fusion Mamba, nous sélectionnons efficacement les informations essentielles provenant de différentes modalités. Un décodeur est ensuite développé pour améliorer la capacité de modélisation canal par canal du modèle. Notre méthode, Sigma, est rigoureusement évaluée sur des tâches de segmentation RGB-Thermique et RGB-Profondeur, démontrant sa supériorité et marquant la première application réussie des modèles d'espace d'état (SSMs) dans les tâches de perception multi-modale. Le code est disponible à l'adresse suivante : https://github.com/zifuwan/Sigma.
English
Multi-modal semantic segmentation significantly enhances AI agents' perception and scene understanding, especially under adverse conditions like low-light or overexposed environments. Leveraging additional modalities (X-modality) like thermal and depth alongside traditional RGB provides complementary information, enabling more robust and reliable segmentation. In this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic segmentation, utilizing the Selective Structured State Space Model, Mamba. Unlike conventional methods that rely on CNNs, with their limited local receptive fields, or Vision Transformers (ViTs), which offer global receptive fields at the cost of quadratic complexity, our model achieves global receptive fields coverage with linear complexity. By employing a Siamese encoder and innovating a Mamba fusion mechanism, we effectively select essential information from different modalities. A decoder is then developed to enhance the channel-wise modeling ability of the model. Our method, Sigma, is rigorously evaluated on both RGB-Thermal and RGB-Depth segmentation tasks, demonstrating its superiority and marking the first successful application of State Space Models (SSMs) in multi-modal perception tasks. Code is available at https://github.com/zifuwan/Sigma.

Summary

AI-Generated Summary

PDF71December 15, 2024