Sigma: Rete Siamese Mamba per la Segmentazione Semantica Multi-Modale
Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation
April 5, 2024
Autori: Zifu Wan, Yuhao Wang, Silong Yong, Pingping Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie
cs.AI
Abstract
La segmentazione semantica multi-modale migliora significativamente la percezione e la comprensione della scena da parte degli agenti di intelligenza artificiale, specialmente in condizioni avverse come ambienti con scarsa illuminazione o sovraesposti. Sfruttare modalità aggiuntive (X-modalità) come termica e profondità, insieme alla tradizionale RGB, fornisce informazioni complementari, consentendo una segmentazione più robusta e affidabile. In questo lavoro, introduciamo Sigma, una rete Siamese Mamba per la segmentazione semantica multi-modale, che utilizza il modello State Space Model selettivo e strutturato, Mamba. A differenza dei metodi convenzionali che si basano su CNN, con i loro campi recettivi locali limitati, o su Vision Transformers (ViTs), che offrono campi recettivi globali al costo di una complessità quadratica, il nostro modello raggiunge una copertura globale dei campi recettivi con complessità lineare. Utilizzando un encoder Siamese e innovando un meccanismo di fusione Mamba, selezioniamo efficacemente le informazioni essenziali da diverse modalità. Successivamente, viene sviluppato un decoder per migliorare la capacità di modellazione canale del modello. Il nostro metodo, Sigma, è rigorosamente valutato sia su compiti di segmentazione RGB-Termica che RGB-Profondità, dimostrando la sua superiorità e segnando la prima applicazione riuscita di State Space Models (SSMs) in compiti di percezione multi-modale. Il codice è disponibile all'indirizzo https://github.com/zifuwan/Sigma.
English
Multi-modal semantic segmentation significantly enhances AI agents'
perception and scene understanding, especially under adverse conditions like
low-light or overexposed environments. Leveraging additional modalities
(X-modality) like thermal and depth alongside traditional RGB provides
complementary information, enabling more robust and reliable segmentation. In
this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic
segmentation, utilizing the Selective Structured State Space Model, Mamba.
Unlike conventional methods that rely on CNNs, with their limited local
receptive fields, or Vision Transformers (ViTs), which offer global receptive
fields at the cost of quadratic complexity, our model achieves global receptive
fields coverage with linear complexity. By employing a Siamese encoder and
innovating a Mamba fusion mechanism, we effectively select essential
information from different modalities. A decoder is then developed to enhance
the channel-wise modeling ability of the model. Our method, Sigma, is
rigorously evaluated on both RGB-Thermal and RGB-Depth segmentation tasks,
demonstrating its superiority and marking the first successful application of
State Space Models (SSMs) in multi-modal perception tasks. Code is available at
https://github.com/zifuwan/Sigma.