ChatPaper.aiChatPaper

Sigma: Rede Mamba Siamesa para Segmentação Semântica Multimodal

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

April 5, 2024
Autores: Zifu Wan, Yuhao Wang, Silong Yong, Pingping Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie
cs.AI

Resumo

A segmentação semântica multimodal aprimora significativamente a percepção e a compreensão de cenas por agentes de IA, especialmente em condições adversas, como ambientes com pouca luz ou superexpostos. A utilização de modalidades adicionais (X-modalidade), como térmica e profundidade, juntamente com o RGB tradicional, fornece informações complementares, permitindo uma segmentação mais robusta e confiável. Neste trabalho, apresentamos o Sigma, uma rede Siamese Mamba para segmentação semântica multimodal, que utiliza o Modelo de Espaço de Estados Estruturado Seletivo, Mamba. Diferentemente dos métodos convencionais que dependem de CNNs, com seus campos receptivos locais limitados, ou de Vision Transformers (ViTs), que oferecem campos receptivos globais ao custo de complexidade quadrática, nosso modelo alcança cobertura de campos receptivos globais com complexidade linear. Ao empregar um codificador Siamese e inovar um mecanismo de fusão Mamba, selecionamos efetivamente informações essenciais de diferentes modalidades. Um decodificador é então desenvolvido para aprimorar a capacidade de modelagem canal a canal do modelo. Nosso método, Sigma, é rigorosamente avaliado em tarefas de segmentação RGB-Térmica e RGB-Profundidade, demonstrando sua superioridade e marcando a primeira aplicação bem-sucedida de Modelos de Espaço de Estados (SSMs) em tarefas de percepção multimodal. O código está disponível em https://github.com/zifuwan/Sigma.
English
Multi-modal semantic segmentation significantly enhances AI agents' perception and scene understanding, especially under adverse conditions like low-light or overexposed environments. Leveraging additional modalities (X-modality) like thermal and depth alongside traditional RGB provides complementary information, enabling more robust and reliable segmentation. In this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic segmentation, utilizing the Selective Structured State Space Model, Mamba. Unlike conventional methods that rely on CNNs, with their limited local receptive fields, or Vision Transformers (ViTs), which offer global receptive fields at the cost of quadratic complexity, our model achieves global receptive fields coverage with linear complexity. By employing a Siamese encoder and innovating a Mamba fusion mechanism, we effectively select essential information from different modalities. A decoder is then developed to enhance the channel-wise modeling ability of the model. Our method, Sigma, is rigorously evaluated on both RGB-Thermal and RGB-Depth segmentation tasks, demonstrating its superiority and marking the first successful application of State Space Models (SSMs) in multi-modal perception tasks. Code is available at https://github.com/zifuwan/Sigma.
PDF71December 15, 2024