Segmentiere alles mit mehreren Modalitäten.
Segment Anything with Multiple Modalities
August 17, 2024
Autoren: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu
cs.AI
Zusammenfassung
Die robuste und präzise Segmentierung von Szenen ist zu einer Kernfunktionalität in verschiedenen visuellen Erkennungs- und Navigationsaufgaben geworden. Dies hat die jüngste Entwicklung des Segment Anything Model (SAM) inspiriert, einem Grundlagenmodell für die allgemeine Maskensegmentierung. Allerdings ist SAM hauptsächlich für einmodale RGB-Bilder ausgelegt, was seine Anwendbarkeit auf multimodale Daten einschränkt, die mit weit verbreiteten Sensorsuiten wie LiDAR plus RGB, Tiefe plus RGB, Wärme plus RGB usw. erfasst werden. Wir haben MM-SAM entwickelt, eine Erweiterung und Erweiterung von SAM, die die kreuzmodale und multimodale Verarbeitung zur robusten und verbesserten Segmentierung mit verschiedenen Sensorsuiten unterstützt. MM-SAM zeichnet sich durch zwei Schlüsselkonzepte aus, nämlich unüberwachtes kreuzmodales Transferlernen und schwach überwachtes multimodales Fusionieren, was eine label-effiziente und parameter-effiziente Anpassung an verschiedene Sensorsuiten ermöglicht. Es begegnet drei Hauptproblemen: 1) Anpassung an verschiedene nicht-RGB-Sensoren für einmodale Verarbeitung, 2) synergistische Verarbeitung von multimodalen Daten durch Sensorfusion und 3) maskenfreies Training für verschiedene nachgelagerte Aufgaben. Umfangreiche Experimente zeigen, dass MM-SAM durchweg SAM deutlich übertrifft und damit seine Wirksamkeit und Robustheit über verschiedene Sensoren und Datenmodalitäten hinweg demonstriert.
English
Robust and accurate segmentation of scenes has become one core functionality
in various visual recognition and navigation tasks. This has inspired the
recent development of Segment Anything Model (SAM), a foundation model for
general mask segmentation. However, SAM is largely tailored for single-modal
RGB images, limiting its applicability to multi-modal data captured with
widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal
plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that
supports cross-modal and multi-modal processing for robust and enhanced
segmentation with different sensor suites. MM-SAM features two key designs,
namely, unsupervised cross-modal transfer and weakly-supervised multi-modal
fusion, enabling label-efficient and parameter-efficient adaptation toward
various sensor modalities. It addresses three main challenges: 1) adaptation
toward diverse non-RGB sensors for single-modal processing, 2) synergistic
processing of multi-modal data via sensor fusion, and 3) mask-free training for
different downstream tasks. Extensive experiments show that MM-SAM consistently
outperforms SAM by large margins, demonstrating its effectiveness and
robustness across various sensors and data modalities.Summary
AI-Generated Summary