Segmentar cualquier cosa con múltiples modalidades
Segment Anything with Multiple Modalities
August 17, 2024
Autores: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu
cs.AI
Resumen
La segmentación robusta y precisa de escenas se ha convertido en una funcionalidad central en varias tareas de reconocimiento visual y navegación. Esto ha inspirado el reciente desarrollo del Modelo Segment Anything (SAM), un modelo base para la segmentación general de máscaras. Sin embargo, SAM está principalmente diseñado para imágenes RGB de un solo modal, lo que limita su aplicabilidad a datos multimodales capturados con conjuntos de sensores ampliamente adoptados, como LiDAR más RGB, profundidad más RGB, térmico más RGB, etc. Desarrollamos MM-SAM, una extensión y expansión de SAM que soporta el procesamiento cruz-modal y multimodal para una segmentación robusta y mejorada con diferentes conjuntos de sensores. MM-SAM presenta dos diseños clave, a saber, transferencia cruz-modal no supervisada y fusión multimodal débilmente supervisada, permitiendo una adaptación eficiente en etiquetas y parámetros hacia diversas modalidades de sensores. Aborda tres desafíos principales: 1) adaptación hacia diversos sensores no-RGB para procesamiento de un solo modal, 2) procesamiento sinérgico de datos multimodales a través de fusión de sensores, y 3) entrenamiento sin máscaras para diferentes tareas posteriores. Experimentos extensos muestran que MM-SAM supera consistentemente a SAM por márgenes amplios, demostrando su efectividad y robustez a través de varios sensores y modalidades de datos.
English
Robust and accurate segmentation of scenes has become one core functionality
in various visual recognition and navigation tasks. This has inspired the
recent development of Segment Anything Model (SAM), a foundation model for
general mask segmentation. However, SAM is largely tailored for single-modal
RGB images, limiting its applicability to multi-modal data captured with
widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal
plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that
supports cross-modal and multi-modal processing for robust and enhanced
segmentation with different sensor suites. MM-SAM features two key designs,
namely, unsupervised cross-modal transfer and weakly-supervised multi-modal
fusion, enabling label-efficient and parameter-efficient adaptation toward
various sensor modalities. It addresses three main challenges: 1) adaptation
toward diverse non-RGB sensors for single-modal processing, 2) synergistic
processing of multi-modal data via sensor fusion, and 3) mask-free training for
different downstream tasks. Extensive experiments show that MM-SAM consistently
outperforms SAM by large margins, demonstrating its effectiveness and
robustness across various sensors and data modalities.