Segmenteren met Meerdere Modaliteiten
Segment Anything with Multiple Modalities
August 17, 2024
Auteurs: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu
cs.AI
Samenvatting
Robuuste en nauwkeurige segmentatie van scènes is een kernfunctionaliteit geworden in diverse visuele herkenning- en navigatietaken. Dit heeft de recente ontwikkeling van het Segment Anything Model (SAM) geïnspireerd, een foundation model voor algemene maskersegmentatie. SAM is echter grotendeels afgestemd op enkelvoudige modale RGB-afbeeldingen, wat de toepasbaarheid ervan beperkt op multimodale data die wordt vastgelegd met veelgebruikte sensorsuites, zoals LiDAR plus RGB, diepte plus RGB, thermisch plus RGB, enz. Wij ontwikkelen MM-SAM, een uitbreiding en expansie van SAM die cross-modale en multimodale verwerking ondersteunt voor robuuste en verbeterde segmentatie met verschillende sensorsuites. MM-SAM beschikt over twee belangrijke ontwerpen, namelijk onbewaakte cross-modale overdracht en zwak bewaakte multimodale fusie, waardoor label-efficiënte en parameter-efficiënte aanpassing naar diverse sensormodaliteiten mogelijk wordt. Het adresseert drie hoofduitdagingen: 1) aanpassing naar diverse niet-RGB-sensoren voor enkelvoudige modale verwerking, 2) synergetische verwerking van multimodale data via sensorfusie, en 3) maskervrije training voor verschillende downstreamtaken. Uitgebreide experimenten tonen aan dat MM-SAM consistent met grote marges beter presteert dan SAM, wat de effectiviteit en robuustheid ervan aantoont over diverse sensoren en datamodaliteiten.
English
Robust and accurate segmentation of scenes has become one core functionality
in various visual recognition and navigation tasks. This has inspired the
recent development of Segment Anything Model (SAM), a foundation model for
general mask segmentation. However, SAM is largely tailored for single-modal
RGB images, limiting its applicability to multi-modal data captured with
widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal
plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that
supports cross-modal and multi-modal processing for robust and enhanced
segmentation with different sensor suites. MM-SAM features two key designs,
namely, unsupervised cross-modal transfer and weakly-supervised multi-modal
fusion, enabling label-efficient and parameter-efficient adaptation toward
various sensor modalities. It addresses three main challenges: 1) adaptation
toward diverse non-RGB sensors for single-modal processing, 2) synergistic
processing of multi-modal data via sensor fusion, and 3) mask-free training for
different downstream tasks. Extensive experiments show that MM-SAM consistently
outperforms SAM by large margins, demonstrating its effectiveness and
robustness across various sensors and data modalities.Summary
AI-Generated Summary