Segmenter n'importe quoi avec des modalités multiples
Segment Anything with Multiple Modalities
August 17, 2024
Auteurs: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu
cs.AI
Résumé
La segmentation robuste et précise des scènes est devenue une fonctionnalité centrale dans diverses tâches de reconnaissance visuelle et de navigation. Cela a inspiré le développement récent du Segment Anything Model (SAM), un modèle de base pour la segmentation générale de masques. Cependant, SAM est largement conçu pour des images RGB unimodales, limitant son applicabilité aux données multimodales capturées avec des ensembles de capteurs largement adoptés, tels que LiDAR plus RGB, profondeur plus RGB, thermique plus RGB, etc. Nous développons MM-SAM, une extension et une expansion de SAM qui prend en charge le traitement intermodal et multimodal pour une segmentation robuste et améliorée avec différents ensembles de capteurs. MM-SAM intègre deux conceptions clés, à savoir le transfert intermodal non supervisé et la fusion multimodale faiblement supervisée, permettant une adaptation efficace en termes d'étiquettes et de paramètres vers diverses modalités de capteurs. Il aborde trois défis principaux : 1) l'adaptation vers divers capteurs non-RGB pour le traitement unimodal, 2) le traitement synergique des données multimodales via la fusion de capteurs, et 3) l'entraînement sans masque pour différentes tâches en aval. Des expériences approfondies montrent que MM-SAM surpasse systématiquement SAM par de larges marges, démontrant son efficacité et sa robustesse à travers divers capteurs et modalités de données.
English
Robust and accurate segmentation of scenes has become one core functionality
in various visual recognition and navigation tasks. This has inspired the
recent development of Segment Anything Model (SAM), a foundation model for
general mask segmentation. However, SAM is largely tailored for single-modal
RGB images, limiting its applicability to multi-modal data captured with
widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal
plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that
supports cross-modal and multi-modal processing for robust and enhanced
segmentation with different sensor suites. MM-SAM features two key designs,
namely, unsupervised cross-modal transfer and weakly-supervised multi-modal
fusion, enabling label-efficient and parameter-efficient adaptation toward
various sensor modalities. It addresses three main challenges: 1) adaptation
toward diverse non-RGB sensors for single-modal processing, 2) synergistic
processing of multi-modal data via sensor fusion, and 3) mask-free training for
different downstream tasks. Extensive experiments show that MM-SAM consistently
outperforms SAM by large margins, demonstrating its effectiveness and
robustness across various sensors and data modalities.Summary
AI-Generated Summary