SAM-CLIP: Zusammenführung von visuellen Basismodellen für semantisches und räumliches Verständnis
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
October 23, 2023
Autoren: Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari
cs.AI
Zusammenfassung
Die Landschaft öffentlich verfügbarer Vision Foundation Models (VFMs), wie CLIP und Segment Anything Model (SAM), expandiert rapide. VFMs verfügen über unterschiedliche Fähigkeiten, die sich aus ihren Vortrainingszielen ergeben. Beispielsweise zeichnet sich CLIP durch semantisches Verständnis aus, während SAM auf räumliches Verständnis für die Segmentierung spezialisiert ist. In dieser Arbeit stellen wir ein einfaches Rezept vor, um VFMs effizient in ein einheitliches Modell zu integrieren, das ihre Expertise vereint. Unsere vorgeschlagene Methode kombiniert Multi-Task-Learning, kontinuierliche Lerntechniken und Teacher-Student-Distillation. Diese Strategie verursacht deutlich geringere Rechenkosten im Vergleich zum traditionellen Multi-Task-Training von Grund auf. Zudem benötigt sie nur einen Bruchteil der Vortrainingsdatensätze, die ursprünglich für das Training der einzelnen Modelle verwendet wurden. Durch die Anwendung unserer Methode auf SAM und CLIP entsteht SAM-CLIP: ein einheitliches Modell, das die Stärken von SAM und CLIP in einem einzigen Backbone vereint und es für Anwendungen auf Edge-Geräten geeignet macht. Wir zeigen, dass SAM-CLIP reichhaltigere visuelle Repräsentationen lernt, die sowohl Lokalisierungs- als auch semantische Merkmale umfassen und für eine breite Palette von Vision-Aufgaben geeignet sind. SAM-CLIP erzielt verbesserte Leistungen bei mehreren Head-Probing-Aufgaben im Vergleich zu SAM und CLIP. Darüber hinaus demonstrieren wir, dass SAM-CLIP nicht nur die grundlegenden Stärken seiner Vorgängermodelle bewahrt, sondern auch synergetische Funktionalitäten einführt, insbesondere im Bereich der Zero-Shot-Semantiksegmentierung, wo SAM-CLIP neue State-of-the-Art-Ergebnisse auf 5 Benchmarks erzielt. Es übertrifft frühere Modelle, die speziell für diese Aufgabe entwickelt wurden, mit großem Abstand, einschließlich einer Verbesserung des mittleren IoU um +6,8 % bzw. +5,9 % auf den Pascal-VOC- und COCO-Stuff-Datensätzen.
English
The landscape of publicly available vision foundation models (VFMs), such as
CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed
with distinct capabilities stemming from their pre-training objectives. For
instance, CLIP excels in semantic understanding, while SAM specializes in
spatial understanding for segmentation. In this work, we introduce a simple
recipe to efficiently merge VFMs into a unified model that assimilates their
expertise. Our proposed method integrates multi-task learning, continual
learning techniques, and teacher-student distillation. This strategy entails
significantly less computational cost compared to traditional multi-task
training from scratch. Additionally, it only demands a small fraction of the
pre-training datasets that were initially used to train individual models. By
applying our method to SAM and CLIP, we derive SAM-CLIP: a unified model that
amalgamates the strengths of SAM and CLIP into a single backbone, making it apt
for edge device applications. We show that SAM-CLIP learns richer visual
representations, equipped with both localization and semantic features,
suitable for a broad range of vision tasks. SAM-CLIP obtains improved
performance on several head probing tasks when compared with SAM and CLIP. We
further show that SAM-CLIP not only retains the foundational strengths of its
precursor models but also introduces synergistic functionalities, most notably
in zero-shot semantic segmentation, where SAM-CLIP establishes new
state-of-the-art results on 5 benchmarks. It outperforms previous models that
are specifically designed for this task by a large margin, including +6.8% and
+5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.