다중 모달리티로 모든 것을 세분화하기
Segment Anything with Multiple Modalities
August 17, 2024
저자: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu
cs.AI
초록
장면의 견고하고 정확한 분할은 다양한 시각 인식 및 내비게이션 작업에서 핵심 기능 중 하나가 되었습니다. 이는 최근 Segment Anything Model (SAM)의 개발을 영감으로 하여, 일반적인 마스크 분할을 위한 기본 모델로 발전시켰습니다. 그러나 SAM은 주로 단일 모달 RGB 이미지에 맞춰져 있어서, LiDAR 플러스 RGB, 깊이 플러스 RGB, 열 플러스 RGB 등과 같이 널리 사용되는 센서 스위트로 캡처된 다중 모달 데이터에는 적용 범위가 제한됩니다. 우리는 SAM의 확장 및 확장인 MM-SAM을 개발했습니다. 이는 다양한 센서 스위트를 사용하여 견고하고 향상된 분할을 지원하는 교차 모달 및 다중 모달 처리를 지원합니다. MM-SAM은 비지도 교차 모달 전송과 약간 지도된 다중 모달 퓨전이라는 두 가지 주요 디자인을 특징으로 하며, 다양한 센서 모달리티로의 레이블 효율적 및 매개변수 효율적 적응을 가능하게 합니다. 이는 세 가지 주요 도전 과제를 다룹니다: 1) 단일 모달 처리를 위한 다양한 비-RGB 센서로의 적응, 2) 센서 퓨전을 통한 다중 모달 데이터의 시너지적 처리, 그리고 3) 다양한 하향 작업을 위한 마스크 없는 훈련. 광범위한 실험 결과 MM-SAM이 다양한 센서 및 데이터 모달리티에 걸쳐 효과적이고 견고함을 입증하며, SAM을 큰 폭으로 앞선다는 것을 보여줍니다.
English
Robust and accurate segmentation of scenes has become one core functionality
in various visual recognition and navigation tasks. This has inspired the
recent development of Segment Anything Model (SAM), a foundation model for
general mask segmentation. However, SAM is largely tailored for single-modal
RGB images, limiting its applicability to multi-modal data captured with
widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal
plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that
supports cross-modal and multi-modal processing for robust and enhanced
segmentation with different sensor suites. MM-SAM features two key designs,
namely, unsupervised cross-modal transfer and weakly-supervised multi-modal
fusion, enabling label-efficient and parameter-efficient adaptation toward
various sensor modalities. It addresses three main challenges: 1) adaptation
toward diverse non-RGB sensors for single-modal processing, 2) synergistic
processing of multi-modal data via sensor fusion, and 3) mask-free training for
different downstream tasks. Extensive experiments show that MM-SAM consistently
outperforms SAM by large margins, demonstrating its effectiveness and
robustness across various sensors and data modalities.Summary
AI-Generated Summary