ChatPaper.aiChatPaper

Sigma: Siamesische Mamba-Netzwerk für Multi-Modale Semantische Segmentierung

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

April 5, 2024
papers.authors: Zifu Wan, Yuhao Wang, Silong Yong, Pingping Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie
cs.AI

papers.abstract

Die multimodale semantische Segmentierung verbessert signifikant die Wahrnehmung und Szenenverständnis von KI-Agenten, insbesondere unter widrigen Bedingungen wie schlechten Lichtverhältnissen oder überbelichteten Umgebungen. Durch die Nutzung zusätzlicher Modalitäten (X-Modalität) wie thermischer und Tiefeninformation neben dem traditionellen RGB werden ergänzende Informationen bereitgestellt, die eine robustere und zuverlässigere Segmentierung ermöglichen. In dieser Arbeit stellen wir Sigma vor, ein Siamese Mamba-Netzwerk für multimodale semantische Segmentierung, das das selektive strukturierte Zustandsraummodell Mamba nutzt. Im Gegensatz zu herkömmlichen Methoden, die auf CNNs mit begrenzten lokalen Rezeptionsfeldern oder Vision-Transformern (ViTs) angewiesen sind, die globale Rezeptionsfelder bei quadratischer Komplexität bieten, erreicht unser Modell eine Abdeckung globaler Rezeptionsfelder bei linearer Komplexität. Durch die Verwendung eines Siamese-Encoders und die Innovation eines Mamba-Fusionsmechanismus wählen wir effektiv wesentliche Informationen aus verschiedenen Modalitäten aus. Ein Decoder wird dann entwickelt, um die kanalweise Modellierungsfähigkeit des Modells zu verbessern. Unsere Methode, Sigma, wird sorgfältig auf RGB-Thermal- und RGB-Tiefensegmentierungsaufgaben evaluiert, was ihre Überlegenheit zeigt und die erste erfolgreiche Anwendung von Zustandsraummodellen (SSMs) in multimodalen Wahrnehmungsaufgaben markiert. Der Code ist verfügbar unter https://github.com/zifuwan/Sigma.
English
Multi-modal semantic segmentation significantly enhances AI agents' perception and scene understanding, especially under adverse conditions like low-light or overexposed environments. Leveraging additional modalities (X-modality) like thermal and depth alongside traditional RGB provides complementary information, enabling more robust and reliable segmentation. In this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic segmentation, utilizing the Selective Structured State Space Model, Mamba. Unlike conventional methods that rely on CNNs, with their limited local receptive fields, or Vision Transformers (ViTs), which offer global receptive fields at the cost of quadratic complexity, our model achieves global receptive fields coverage with linear complexity. By employing a Siamese encoder and innovating a Mamba fusion mechanism, we effectively select essential information from different modalities. A decoder is then developed to enhance the channel-wise modeling ability of the model. Our method, Sigma, is rigorously evaluated on both RGB-Thermal and RGB-Depth segmentation tasks, demonstrating its superiority and marking the first successful application of State Space Models (SSMs) in multi-modal perception tasks. Code is available at https://github.com/zifuwan/Sigma.
PDF71December 15, 2024