Сегментация объектов с использованием нескольких модальностей.
Segment Anything with Multiple Modalities
August 17, 2024
Авторы: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu
cs.AI
Аннотация
Надежная и точная сегментация сцен стала одной из основных функциональных возможностей в различных задачах визуального распознавания и навигации. Это вдохновило недавнее развитие модели Segment Anything Model (SAM), базовой модели для общей сегментации маски. Однако SAM в значительной степени адаптирован для одномодальных RGB изображений, что ограничивает его применимость к мультимодальным данным, полученным с широко используемыми наборами датчиков, такими как LiDAR плюс RGB, глубина плюс RGB, тепловое излучение плюс RGB и т. д. Мы разработали MM-SAM, расширение и расширение SAM, которое поддерживает кросс-модальную и мультимодальную обработку для надежной и улучшенной сегментации с различными наборами датчиков. MM-SAM имеет два ключевых дизайна, а именно, ненаблюдаемый кросс-модальный перенос и слабонаблюдаемое мультимодальное слияние, обеспечивая эффективную адаптацию к различным модальностям датчиков с небольшим количеством меток и параметров. Он решает три основных проблемы: 1) адаптацию к разнообразным не-RGB датчикам для одномодальной обработки, 2) синергетическую обработку мультимодальных данных через слияние датчиков и 3) обучение без маски для различных последующих задач. Обширные эксперименты показывают, что MM-SAM последовательно превосходит SAM с большим отрывом, демонстрируя его эффективность и надежность в различных сенсорах и модальностях данных.
English
Robust and accurate segmentation of scenes has become one core functionality
in various visual recognition and navigation tasks. This has inspired the
recent development of Segment Anything Model (SAM), a foundation model for
general mask segmentation. However, SAM is largely tailored for single-modal
RGB images, limiting its applicability to multi-modal data captured with
widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal
plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that
supports cross-modal and multi-modal processing for robust and enhanced
segmentation with different sensor suites. MM-SAM features two key designs,
namely, unsupervised cross-modal transfer and weakly-supervised multi-modal
fusion, enabling label-efficient and parameter-efficient adaptation toward
various sensor modalities. It addresses three main challenges: 1) adaptation
toward diverse non-RGB sensors for single-modal processing, 2) synergistic
processing of multi-modal data via sensor fusion, and 3) mask-free training for
different downstream tasks. Extensive experiments show that MM-SAM consistently
outperforms SAM by large margins, demonstrating its effectiveness and
robustness across various sensors and data modalities.Summary
AI-Generated Summary