Segmenteren met Meerdere Modaliteiten

Samenvatting

Robuuste en nauwkeurige segmentatie van scènes is een kernfunctionaliteit geworden in diverse visuele herkenning- en navigatietaken. Dit heeft de recente ontwikkeling van het Segment Anything Model (SAM) geïnspireerd, een foundation model voor algemene maskersegmentatie. SAM is echter grotendeels afgestemd op enkelvoudige modale RGB-afbeeldingen, wat de toepasbaarheid ervan beperkt op multimodale data die wordt vastgelegd met veelgebruikte sensorsuites, zoals LiDAR plus RGB, diepte plus RGB, thermisch plus RGB, enz. Wij ontwikkelen MM-SAM, een uitbreiding en expansie van SAM die cross-modale en multimodale verwerking ondersteunt voor robuuste en verbeterde segmentatie met verschillende sensorsuites. MM-SAM beschikt over twee belangrijke ontwerpen, namelijk onbewaakte cross-modale overdracht en zwak bewaakte multimodale fusie, waardoor label-efficiënte en parameter-efficiënte aanpassing naar diverse sensormodaliteiten mogelijk wordt. Het adresseert drie hoofduitdagingen: 1) aanpassing naar diverse niet-RGB-sensoren voor enkelvoudige modale verwerking, 2) synergetische verwerking van multimodale data via sensorfusie, en 3) maskervrije training voor verschillende downstreamtaken. Uitgebreide experimenten tonen aan dat MM-SAM consistent met grote marges beter presteert dan SAM, wat de effectiviteit en robuustheid ervan aantoont over diverse sensoren en datamodaliteiten.

English

Robust and accurate segmentation of scenes has become one core functionality in various visual recognition and navigation tasks. This has inspired the recent development of Segment Anything Model (SAM), a foundation model for general mask segmentation. However, SAM is largely tailored for single-modal RGB images, limiting its applicability to multi-modal data captured with widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that supports cross-modal and multi-modal processing for robust and enhanced segmentation with different sensor suites. MM-SAM features two key designs, namely, unsupervised cross-modal transfer and weakly-supervised multi-modal fusion, enabling label-efficient and parameter-efficient adaptation toward various sensor modalities. It addresses three main challenges: 1) adaptation toward diverse non-RGB sensors for single-modal processing, 2) synergistic processing of multi-modal data via sensor fusion, and 3) mask-free training for different downstream tasks. Extensive experiments show that MM-SAM consistently outperforms SAM by large margins, demonstrating its effectiveness and robustness across various sensors and data modalities.

Segmenteren met Meerdere Modaliteiten

Segment Anything with Multiple Modalities

Samenvatting

Summary

Support

Support