ChatPaper.aiChatPaper

Segmentiere alles mit mehreren Modalitäten.

Segment Anything with Multiple Modalities

August 17, 2024
Autoren: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu
cs.AI

Zusammenfassung

Die robuste und präzise Segmentierung von Szenen ist zu einer Kernfunktionalität in verschiedenen visuellen Erkennungs- und Navigationsaufgaben geworden. Dies hat die jüngste Entwicklung des Segment Anything Model (SAM) inspiriert, einem Grundlagenmodell für die allgemeine Maskensegmentierung. Allerdings ist SAM hauptsächlich für einmodale RGB-Bilder ausgelegt, was seine Anwendbarkeit auf multimodale Daten einschränkt, die mit weit verbreiteten Sensorsuiten wie LiDAR plus RGB, Tiefe plus RGB, Wärme plus RGB usw. erfasst werden. Wir haben MM-SAM entwickelt, eine Erweiterung und Erweiterung von SAM, die die kreuzmodale und multimodale Verarbeitung zur robusten und verbesserten Segmentierung mit verschiedenen Sensorsuiten unterstützt. MM-SAM zeichnet sich durch zwei Schlüsselkonzepte aus, nämlich unüberwachtes kreuzmodales Transferlernen und schwach überwachtes multimodales Fusionieren, was eine label-effiziente und parameter-effiziente Anpassung an verschiedene Sensorsuiten ermöglicht. Es begegnet drei Hauptproblemen: 1) Anpassung an verschiedene nicht-RGB-Sensoren für einmodale Verarbeitung, 2) synergistische Verarbeitung von multimodalen Daten durch Sensorfusion und 3) maskenfreies Training für verschiedene nachgelagerte Aufgaben. Umfangreiche Experimente zeigen, dass MM-SAM durchweg SAM deutlich übertrifft und damit seine Wirksamkeit und Robustheit über verschiedene Sensoren und Datenmodalitäten hinweg demonstriert.
English
Robust and accurate segmentation of scenes has become one core functionality in various visual recognition and navigation tasks. This has inspired the recent development of Segment Anything Model (SAM), a foundation model for general mask segmentation. However, SAM is largely tailored for single-modal RGB images, limiting its applicability to multi-modal data captured with widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that supports cross-modal and multi-modal processing for robust and enhanced segmentation with different sensor suites. MM-SAM features two key designs, namely, unsupervised cross-modal transfer and weakly-supervised multi-modal fusion, enabling label-efficient and parameter-efficient adaptation toward various sensor modalities. It addresses three main challenges: 1) adaptation toward diverse non-RGB sensors for single-modal processing, 2) synergistic processing of multi-modal data via sensor fusion, and 3) mask-free training for different downstream tasks. Extensive experiments show that MM-SAM consistently outperforms SAM by large margins, demonstrating its effectiveness and robustness across various sensors and data modalities.

Summary

AI-Generated Summary

PDF232November 19, 2024