SAM-CLIP: Integrazione di Modelli Fondamentali per la Visione verso una Comprensione Semantica e Spaziale
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
October 23, 2023
Autori: Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari
cs.AI
Abstract
Il panorama dei modelli di base per la visione (VFMs) disponibili pubblicamente, come CLIP e Segment Anything Model (SAM), si sta espandendo rapidamente. I VFM sono dotati di capacità distinte derivanti dai loro obiettivi di pre-addestramento. Ad esempio, CLIP eccelle nella comprensione semantica, mentre SAM si specializza nella comprensione spaziale per la segmentazione. In questo lavoro, introduciamo una ricetta semplice per fondere in modo efficiente i VFM in un modello unificato che assimila le loro competenze. Il nostro metodo proposto integra l'apprendimento multi-task, tecniche di apprendimento continuo e la distillazione insegnante-studente. Questa strategia comporta un costo computazionale significativamente inferiore rispetto al tradizionale addestramento multi-task da zero. Inoltre, richiede solo una piccola frazione dei dataset di pre-addestramento inizialmente utilizzati per addestrare i singoli modelli. Applicando il nostro metodo a SAM e CLIP, otteniamo SAM-CLIP: un modello unificato che amalgama i punti di forza di SAM e CLIP in un'unica architettura, rendendolo adatto per applicazioni su dispositivi edge. Dimostriamo che SAM-CLIP apprende rappresentazioni visive più ricche, dotate sia di caratteristiche di localizzazione che semantiche, adatte a un'ampia gamma di task di visione. SAM-CLIP ottiene prestazioni migliorate in diversi task di probing rispetto a SAM e CLIP. Mostriamo inoltre che SAM-CLIP non solo conserva i punti di forza fondamentali dei suoi modelli precursori, ma introduce anche funzionalità sinergiche, in particolare nella segmentazione semantica zero-shot, dove SAM-CLIP stabilisce nuovi risultati state-of-the-art su 5 benchmark. Supera di gran lunga i modelli precedenti specificamente progettati per questo task, con miglioramenti medi di IoU rispettivamente del +6,8% e del +5,9% sui dataset Pascal-VOC e COCO-Stuff.
English
The landscape of publicly available vision foundation models (VFMs), such as
CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed
with distinct capabilities stemming from their pre-training objectives. For
instance, CLIP excels in semantic understanding, while SAM specializes in
spatial understanding for segmentation. In this work, we introduce a simple
recipe to efficiently merge VFMs into a unified model that assimilates their
expertise. Our proposed method integrates multi-task learning, continual
learning techniques, and teacher-student distillation. This strategy entails
significantly less computational cost compared to traditional multi-task
training from scratch. Additionally, it only demands a small fraction of the
pre-training datasets that were initially used to train individual models. By
applying our method to SAM and CLIP, we derive SAM-CLIP: a unified model that
amalgamates the strengths of SAM and CLIP into a single backbone, making it apt
for edge device applications. We show that SAM-CLIP learns richer visual
representations, equipped with both localization and semantic features,
suitable for a broad range of vision tasks. SAM-CLIP obtains improved
performance on several head probing tasks when compared with SAM and CLIP. We
further show that SAM-CLIP not only retains the foundational strengths of its
precursor models but also introduces synergistic functionalities, most notably
in zero-shot semantic segmentation, where SAM-CLIP establishes new
state-of-the-art results on 5 benchmarks. It outperforms previous models that
are specifically designed for this task by a large margin, including +6.8% and
+5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.