ChatPaper.aiChatPaper

Сигма: Сеть Сиамской Мамба для Мультимодальной Семантической Сегментации

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

April 5, 2024
Авторы: Zifu Wan, Yuhao Wang, Silong Yong, Pingping Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie
cs.AI

Аннотация

Многомодальная семантическая сегментация значительно улучшает восприятие и понимание сцены искусственными интеллектами, особенно в условиях неблагоприятной освещенности или переосвещенности. Использование дополнительных модальностей (X-модальность), таких как тепловое и глубина в дополнение к традиционному RGB, предоставляет дополнительную информацию, обеспечивая более надежную и устойчивую сегментацию. В данной работе мы представляем Sigma, сеть Siamese Mamba для многомодальной семантической сегментации, использующую модель Состояния Пространства Структурированного Выбора, Mamba. В отличие от традиционных методов, основанных на CNN, с их ограниченными локальными рецептивными полями, или Vision Transformers (ViTs), которые предлагают глобальные рецептивные поля за счет квадратичной сложности, наша модель достигает охвата глобальных рецептивных полей с линейной сложностью. Применяя Siamese энкодер и инновационный механизм слияния Mamba, мы эффективно выбираем важную информацию из различных модальностей. Затем разрабатывается декодер для улучшения возможности моделирования по каналам. Наш метод, Sigma, тщательно оценивается на задачах сегментации RGB-тепловое и RGB-глубина, демонстрируя его превосходство и отмечая первое успешное применение Моделей Пространства Состояний (SSM) в задачах многомодального восприятия. Код доступен по ссылке https://github.com/zifuwan/Sigma.
English
Multi-modal semantic segmentation significantly enhances AI agents' perception and scene understanding, especially under adverse conditions like low-light or overexposed environments. Leveraging additional modalities (X-modality) like thermal and depth alongside traditional RGB provides complementary information, enabling more robust and reliable segmentation. In this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic segmentation, utilizing the Selective Structured State Space Model, Mamba. Unlike conventional methods that rely on CNNs, with their limited local receptive fields, or Vision Transformers (ViTs), which offer global receptive fields at the cost of quadratic complexity, our model achieves global receptive fields coverage with linear complexity. By employing a Siamese encoder and innovating a Mamba fusion mechanism, we effectively select essential information from different modalities. A decoder is then developed to enhance the channel-wise modeling ability of the model. Our method, Sigma, is rigorously evaluated on both RGB-Thermal and RGB-Depth segmentation tasks, demonstrating its superiority and marking the first successful application of State Space Models (SSMs) in multi-modal perception tasks. Code is available at https://github.com/zifuwan/Sigma.

Summary

AI-Generated Summary

PDF71December 15, 2024