Segmentar Qualquer Coisa com Múltiplas Modalidades
Segment Anything with Multiple Modalities
August 17, 2024
Autores: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu
cs.AI
Resumo
A segmentação robusta e precisa de cenas tornou-se uma funcionalidade central em várias tarefas de reconhecimento visual e navegação. Isso inspirou o recente desenvolvimento do Modelo Segment Anything (SAM), um modelo fundamental para segmentação de máscara geral. No entanto, o SAM é amplamente adaptado para imagens RGB de modalidade única, limitando sua aplicabilidade a dados multimodais capturados com conjuntos de sensores amplamente adotados, como LiDAR mais RGB, profundidade mais RGB, térmico mais RGB, etc. Desenvolvemos o MM-SAM, uma extensão e expansão do SAM que suporta processamento cruzado e multimodal para segmentação robusta e aprimorada com diferentes conjuntos de sensores. O MM-SAM apresenta dois designs-chave, a saber, transferência cruzada não supervisionada e fusão multimodal fracamente supervisionada, permitindo adaptação eficiente em rótulos e parâmetros para várias modalidades de sensores. Ele aborda três desafios principais: 1) adaptação a diversos sensores não RGB para processamento de modalidade única, 2) processamento sinérgico de dados multimodais por meio de fusão de sensores e 3) treinamento sem máscara para diferentes tarefas subsequentes. Experimentos extensivos mostram que o MM-SAM consistentemente supera o SAM por amplas margens, demonstrando sua eficácia e robustez em vários sensores e modalidades de dados.
English
Robust and accurate segmentation of scenes has become one core functionality
in various visual recognition and navigation tasks. This has inspired the
recent development of Segment Anything Model (SAM), a foundation model for
general mask segmentation. However, SAM is largely tailored for single-modal
RGB images, limiting its applicability to multi-modal data captured with
widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal
plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that
supports cross-modal and multi-modal processing for robust and enhanced
segmentation with different sensor suites. MM-SAM features two key designs,
namely, unsupervised cross-modal transfer and weakly-supervised multi-modal
fusion, enabling label-efficient and parameter-efficient adaptation toward
various sensor modalities. It addresses three main challenges: 1) adaptation
toward diverse non-RGB sensors for single-modal processing, 2) synergistic
processing of multi-modal data via sensor fusion, and 3) mask-free training for
different downstream tasks. Extensive experiments show that MM-SAM consistently
outperforms SAM by large margins, demonstrating its effectiveness and
robustness across various sensors and data modalities.Summary
AI-Generated Summary