ChatPaper.aiChatPaper

Sigma: Siamees Mamba Netwerk voor Multi-Modale Semantische Segmentatie

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

April 5, 2024
Auteurs: Zifu Wan, Yuhao Wang, Silong Yong, Pingping Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie
cs.AI

Samenvatting

Multi-modale semantische segmentatie verbetert de waarneming en scènebegrip van AI-agenten aanzienlijk, vooral onder moeilijke omstandigheden zoals weinig licht of overbelichte omgevingen. Door aanvullende modaliteiten (X-modaliteit) zoals thermisch en diepte naast traditionele RGB te benutten, wordt aanvullende informatie verkregen, wat resulteert in robuustere en betrouwbaardere segmentatie. In dit werk introduceren we Sigma, een Siamese Mamba-netwerk voor multi-modale semantische segmentatie, dat gebruikmaakt van het Selective Structured State Space Model, Mamba. In tegenstelling tot conventionele methoden die vertrouwen op CNN's, met hun beperkte lokale receptieve velden, of Vision Transformers (ViTs), die globale receptieve velden bieden ten koste van kwadratische complexiteit, bereikt ons model globale receptieve velden met lineaire complexiteit. Door een Siamese encoder te gebruiken en een innovatief Mamba-fusiemechanisme te ontwikkelen, selecteren we effectief essentiële informatie uit verschillende modaliteiten. Vervolgens wordt een decoder ontwikkeld om het kanaalgewijze modelleringsvermogen van het model te verbeteren. Onze methode, Sigma, wordt grondig geëvalueerd op zowel RGB-Thermische als RGB-Diepte segmentatietaken, waarbij de superioriteit ervan wordt aangetoond en de eerste succesvolle toepassing van State Space Models (SSMs) in multi-modale waarnemingstaken wordt gemarkeerd. Code is beschikbaar op https://github.com/zifuwan/Sigma.
English
Multi-modal semantic segmentation significantly enhances AI agents' perception and scene understanding, especially under adverse conditions like low-light or overexposed environments. Leveraging additional modalities (X-modality) like thermal and depth alongside traditional RGB provides complementary information, enabling more robust and reliable segmentation. In this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic segmentation, utilizing the Selective Structured State Space Model, Mamba. Unlike conventional methods that rely on CNNs, with their limited local receptive fields, or Vision Transformers (ViTs), which offer global receptive fields at the cost of quadratic complexity, our model achieves global receptive fields coverage with linear complexity. By employing a Siamese encoder and innovating a Mamba fusion mechanism, we effectively select essential information from different modalities. A decoder is then developed to enhance the channel-wise modeling ability of the model. Our method, Sigma, is rigorously evaluated on both RGB-Thermal and RGB-Depth segmentation tasks, demonstrating its superiority and marking the first successful application of State Space Models (SSMs) in multi-modal perception tasks. Code is available at https://github.com/zifuwan/Sigma.
PDF71December 15, 2024