ChatPaper.aiChatPaper

Segmentazione di Oggetti con Multiple Modalità

Segment Anything with Multiple Modalities

August 17, 2024
Autori: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu
cs.AI

Abstract

La segmentazione robusta e accurata delle scene è diventata una funzionalità centrale in vari compiti di riconoscimento visivo e navigazione. Ciò ha ispirato il recente sviluppo del Segment Anything Model (SAM), un modello di base per la segmentazione generale delle maschere. Tuttavia, SAM è principalmente adattato per immagini RGB a singola modalità, limitando la sua applicabilità a dati multi-modali acquisiti con suite di sensori ampiamente adottate, come LiDAR più RGB, profondità più RGB, termico più RGB, ecc. Sviluppiamo MM-SAM, un'estensione e ampliamento di SAM che supporta l'elaborazione cross-modale e multi-modale per una segmentazione robusta e migliorata con diverse suite di sensori. MM-SAM presenta due design chiave, ovvero il trasferimento cross-modale non supervisionato e la fusione multi-modale debolmente supervisionata, consentendo un adattamento efficiente in termini di etichette e parametri verso varie modalità di sensori. Affronta tre principali sfide: 1) l'adattamento verso diversi sensori non RGB per l'elaborazione a singola modalità, 2) l'elaborazione sinergica di dati multi-modali tramite fusione di sensori, e 3) l'addestramento senza maschere per diversi compiti downstream. Esperimenti estensivi dimostrano che MM-SAM supera costantemente SAM con ampi margini, dimostrando la sua efficacia e robustezza attraverso vari sensori e modalità di dati.
English
Robust and accurate segmentation of scenes has become one core functionality in various visual recognition and navigation tasks. This has inspired the recent development of Segment Anything Model (SAM), a foundation model for general mask segmentation. However, SAM is largely tailored for single-modal RGB images, limiting its applicability to multi-modal data captured with widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that supports cross-modal and multi-modal processing for robust and enhanced segmentation with different sensor suites. MM-SAM features two key designs, namely, unsupervised cross-modal transfer and weakly-supervised multi-modal fusion, enabling label-efficient and parameter-efficient adaptation toward various sensor modalities. It addresses three main challenges: 1) adaptation toward diverse non-RGB sensors for single-modal processing, 2) synergistic processing of multi-modal data via sensor fusion, and 3) mask-free training for different downstream tasks. Extensive experiments show that MM-SAM consistently outperforms SAM by large margins, demonstrating its effectiveness and robustness across various sensors and data modalities.

Summary

AI-Generated Summary

PDF232November 19, 2024