Sigma: 다중 모달 시맨틱 세그멘테이션을 위한 시암제 맘바 네트워크
Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation
April 5, 2024
저자: Zifu Wan, Yuhao Wang, Silong Yong, Pingping Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie
cs.AI
초록
멀티모달 의미론적 분할은 특히 저조도 또는 과다 노출 환경과 같은 불리한 조건에서 AI 에이전트의 인지 및 장면 이해를 크게 향상시킵니다. 기존의 RGB와 함께 열화상 및 깊이 정보와 같은 추가 모달리티(X-모달리티)를 활용함으로써 상호 보완적인 정보를 제공하여 더욱 견고하고 신뢰할 수 있는 분할을 가능하게 합니다. 본 연구에서는 선택적 구조화 상태 공간 모델인 Mamba를 활용한 멀티모달 의미론적 분할을 위한 Siamese Mamba 네트워크인 Sigma를 소개합니다. 제한된 지역 수용 필드를 가진 CNN이나 2차 복잡도를 가지는 전역 수용 필드를 제공하는 Vision Transformers(ViTs)와 같은 기존 방법과 달리, 우리의 모델은 선형 복잡도로 전역 수용 필드 범위를 달성합니다. Siamese 인코더를 사용하고 Mamba 융합 메커니즘을 혁신적으로 도입함으로써 다양한 모달리티에서 필수적인 정보를 효과적으로 선택합니다. 이후 디코더를 개발하여 모델의 채널별 모델링 능력을 향상시킵니다. 우리의 방법인 Sigma는 RGB-열화상 및 RGB-깊이 분할 작업에서 엄격하게 평가되었으며, 그 우수성을 입증하고 멀티모달 인지 작업에서 상태 공간 모델(SSMs)의 첫 번째 성공적인 적용을 기록했습니다. 코드는 https://github.com/zifuwan/Sigma에서 확인할 수 있습니다.
English
Multi-modal semantic segmentation significantly enhances AI agents'
perception and scene understanding, especially under adverse conditions like
low-light or overexposed environments. Leveraging additional modalities
(X-modality) like thermal and depth alongside traditional RGB provides
complementary information, enabling more robust and reliable segmentation. In
this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic
segmentation, utilizing the Selective Structured State Space Model, Mamba.
Unlike conventional methods that rely on CNNs, with their limited local
receptive fields, or Vision Transformers (ViTs), which offer global receptive
fields at the cost of quadratic complexity, our model achieves global receptive
fields coverage with linear complexity. By employing a Siamese encoder and
innovating a Mamba fusion mechanism, we effectively select essential
information from different modalities. A decoder is then developed to enhance
the channel-wise modeling ability of the model. Our method, Sigma, is
rigorously evaluated on both RGB-Thermal and RGB-Depth segmentation tasks,
demonstrating its superiority and marking the first successful application of
State Space Models (SSMs) in multi-modal perception tasks. Code is available at
https://github.com/zifuwan/Sigma.Summary
AI-Generated Summary