Segmenter n'importe quoi avec des modalités multiples

papers.abstract

La segmentation robuste et précise des scènes est devenue une fonctionnalité centrale dans diverses tâches de reconnaissance visuelle et de navigation. Cela a inspiré le développement récent du Segment Anything Model (SAM), un modèle de base pour la segmentation générale de masques. Cependant, SAM est largement conçu pour des images RGB unimodales, limitant son applicabilité aux données multimodales capturées avec des ensembles de capteurs largement adoptés, tels que LiDAR plus RGB, profondeur plus RGB, thermique plus RGB, etc. Nous développons MM-SAM, une extension et une expansion de SAM qui prend en charge le traitement intermodal et multimodal pour une segmentation robuste et améliorée avec différents ensembles de capteurs. MM-SAM intègre deux conceptions clés, à savoir le transfert intermodal non supervisé et la fusion multimodale faiblement supervisée, permettant une adaptation efficace en termes d'étiquettes et de paramètres vers diverses modalités de capteurs. Il aborde trois défis principaux : 1) l'adaptation vers divers capteurs non-RGB pour le traitement unimodal, 2) le traitement synergique des données multimodales via la fusion de capteurs, et 3) l'entraînement sans masque pour différentes tâches en aval. Des expériences approfondies montrent que MM-SAM surpasse systématiquement SAM par de larges marges, démontrant son efficacité et sa robustesse à travers divers capteurs et modalités de données.

English

Robust and accurate segmentation of scenes has become one core functionality in various visual recognition and navigation tasks. This has inspired the recent development of Segment Anything Model (SAM), a foundation model for general mask segmentation. However, SAM is largely tailored for single-modal RGB images, limiting its applicability to multi-modal data captured with widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that supports cross-modal and multi-modal processing for robust and enhanced segmentation with different sensor suites. MM-SAM features two key designs, namely, unsupervised cross-modal transfer and weakly-supervised multi-modal fusion, enabling label-efficient and parameter-efficient adaptation toward various sensor modalities. It addresses three main challenges: 1) adaptation toward diverse non-RGB sensors for single-modal processing, 2) synergistic processing of multi-modal data via sensor fusion, and 3) mask-free training for different downstream tasks. Extensive experiments show that MM-SAM consistently outperforms SAM by large margins, demonstrating its effectiveness and robustness across various sensors and data modalities.

Segmenter n'importe quoi avec des modalités multiples

Segment Anything with Multiple Modalities

papers.abstract

Support