ChatPaper.aiChatPaper

Sigma: Red Mamba Siamesa para Segmentación Semántica Multi-Modal

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

April 5, 2024
Autores: Zifu Wan, Yuhao Wang, Silong Yong, Pingping Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie
cs.AI

Resumen

La segmentación semántica multimodal mejora significativamente la percepción y la comprensión de escenas por parte de los agentes de IA, especialmente en condiciones adversas como entornos de poca luz o sobreexpuestos. Aprovechar modalidades adicionales (X-modalidad), como térmica y profundidad, junto con el RGB tradicional, proporciona información complementaria, permitiendo una segmentación más robusta y confiable. En este trabajo, presentamos Sigma, una red Siamese Mamba para la segmentación semántica multimodal, que utiliza el Modelo de Espacio de Estado Estructurado Selectivo, Mamba. A diferencia de los métodos convencionales que dependen de CNNs, con sus campos receptivos locales limitados, o de los Transformers de Visión (ViTs), que ofrecen campos receptivos globales a costa de una complejidad cuadrática, nuestro modelo logra una cobertura de campos receptivos globales con complejidad lineal. Al emplear un codificador Siamese e innovar un mecanismo de fusión Mamba, seleccionamos eficazmente la información esencial de diferentes modalidades. Luego, se desarrolla un decodificador para mejorar la capacidad de modelado por canales del modelo. Nuestro método, Sigma, se evalúa rigurosamente en tareas de segmentación RGB-Térmica y RGB-Profundidad, demostrando su superioridad y marcando la primera aplicación exitosa de Modelos de Espacio de Estado (SSMs) en tareas de percepción multimodal. El código está disponible en https://github.com/zifuwan/Sigma.
English
Multi-modal semantic segmentation significantly enhances AI agents' perception and scene understanding, especially under adverse conditions like low-light or overexposed environments. Leveraging additional modalities (X-modality) like thermal and depth alongside traditional RGB provides complementary information, enabling more robust and reliable segmentation. In this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic segmentation, utilizing the Selective Structured State Space Model, Mamba. Unlike conventional methods that rely on CNNs, with their limited local receptive fields, or Vision Transformers (ViTs), which offer global receptive fields at the cost of quadratic complexity, our model achieves global receptive fields coverage with linear complexity. By employing a Siamese encoder and innovating a Mamba fusion mechanism, we effectively select essential information from different modalities. A decoder is then developed to enhance the channel-wise modeling ability of the model. Our method, Sigma, is rigorously evaluated on both RGB-Thermal and RGB-Depth segmentation tasks, demonstrating its superiority and marking the first successful application of State Space Models (SSMs) in multi-modal perception tasks. Code is available at https://github.com/zifuwan/Sigma.

Summary

AI-Generated Summary

PDF71December 15, 2024