Сегментация объектов с использованием нескольких модальностей.

Аннотация

Надежная и точная сегментация сцен стала одной из основных функциональных возможностей в различных задачах визуального распознавания и навигации. Это вдохновило недавнее развитие модели Segment Anything Model (SAM), базовой модели для общей сегментации маски. Однако SAM в значительной степени адаптирован для одномодальных RGB изображений, что ограничивает его применимость к мультимодальным данным, полученным с широко используемыми наборами датчиков, такими как LiDAR плюс RGB, глубина плюс RGB, тепловое излучение плюс RGB и т. д. Мы разработали MM-SAM, расширение и расширение SAM, которое поддерживает кросс-модальную и мультимодальную обработку для надежной и улучшенной сегментации с различными наборами датчиков. MM-SAM имеет два ключевых дизайна, а именно, ненаблюдаемый кросс-модальный перенос и слабонаблюдаемое мультимодальное слияние, обеспечивая эффективную адаптацию к различным модальностям датчиков с небольшим количеством меток и параметров. Он решает три основных проблемы: 1) адаптацию к разнообразным не-RGB датчикам для одномодальной обработки, 2) синергетическую обработку мультимодальных данных через слияние датчиков и 3) обучение без маски для различных последующих задач. Обширные эксперименты показывают, что MM-SAM последовательно превосходит SAM с большим отрывом, демонстрируя его эффективность и надежность в различных сенсорах и модальностях данных.

English

Robust and accurate segmentation of scenes has become one core functionality in various visual recognition and navigation tasks. This has inspired the recent development of Segment Anything Model (SAM), a foundation model for general mask segmentation. However, SAM is largely tailored for single-modal RGB images, limiting its applicability to multi-modal data captured with widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that supports cross-modal and multi-modal processing for robust and enhanced segmentation with different sensor suites. MM-SAM features two key designs, namely, unsupervised cross-modal transfer and weakly-supervised multi-modal fusion, enabling label-efficient and parameter-efficient adaptation toward various sensor modalities. It addresses three main challenges: 1) adaptation toward diverse non-RGB sensors for single-modal processing, 2) synergistic processing of multi-modal data via sensor fusion, and 3) mask-free training for different downstream tasks. Extensive experiments show that MM-SAM consistently outperforms SAM by large margins, demonstrating its effectiveness and robustness across various sensors and data modalities.

Сегментация объектов с использованием нескольких модальностей.

Segment Anything with Multiple Modalities

Аннотация

Support