SAM-CLIP: Het samenvoegen van visuele basis-modellen voor semantisch en ruimtelijk begrip
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
October 23, 2023
Auteurs: Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari
cs.AI
Samenvatting
Het landschap van publiek beschikbare vision foundation models (VFMs), zoals CLIP en Segment Anything Model (SAM), breidt zich snel uit. VFM's beschikken over verschillende capaciteiten die voortkomen uit hun pre-trainingsdoelstellingen. CLIP blinkt bijvoorbeeld uit in semantisch begrip, terwijl SAM gespecialiseerd is in ruimtelijk begrip voor segmentatie. In dit werk introduceren we een eenvoudige methode om VFM's efficiënt samen te voegen tot een geïntegreerd model dat hun expertise assimileert. Onze voorgestelde methode integreert multi-task learning, continue leertechnieken en teacher-student distillatie. Deze strategie vereist aanzienlijk minder rekenkracht in vergelijking met traditionele multi-task training vanaf nul. Bovendien is slechts een kleine fractie van de pre-trainingsdatasets nodig die oorspronkelijk werden gebruikt om de individuele modellen te trainen. Door onze methode toe te passen op SAM en CLIP, leiden we SAM-CLIP af: een geïntegreerd model dat de sterke punten van SAM en CLIP combineert in een enkele backbone, waardoor het geschikt is voor toepassingen op edge devices. We tonen aan dat SAM-CLIP rijkere visuele representaties leert, uitgerust met zowel lokalisatie- als semantische kenmerken, geschikt voor een breed scala aan vision-taken. SAM-CLIP behaalt verbeterde prestaties op verschillende head probing-taken in vergelijking met SAM en CLIP. We laten verder zien dat SAM-CLIP niet alleen de fundamentele sterke punten van zijn voorgangers behoudt, maar ook synergetische functionaliteiten introduceert, met name in zero-shot semantische segmentatie, waar SAM-CLIP nieuwe state-of-the-art resultaten behaalt op 5 benchmarks. Het overtreft eerdere modellen die specifiek voor deze taak zijn ontworpen met een grote marge, waaronder een verbetering van +6,8% en +5,9% gemiddelde IoU op de Pascal-VOC- en COCO-Stuff-datasets, respectievelijk.
English
The landscape of publicly available vision foundation models (VFMs), such as
CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed
with distinct capabilities stemming from their pre-training objectives. For
instance, CLIP excels in semantic understanding, while SAM specializes in
spatial understanding for segmentation. In this work, we introduce a simple
recipe to efficiently merge VFMs into a unified model that assimilates their
expertise. Our proposed method integrates multi-task learning, continual
learning techniques, and teacher-student distillation. This strategy entails
significantly less computational cost compared to traditional multi-task
training from scratch. Additionally, it only demands a small fraction of the
pre-training datasets that were initially used to train individual models. By
applying our method to SAM and CLIP, we derive SAM-CLIP: a unified model that
amalgamates the strengths of SAM and CLIP into a single backbone, making it apt
for edge device applications. We show that SAM-CLIP learns richer visual
representations, equipped with both localization and semantic features,
suitable for a broad range of vision tasks. SAM-CLIP obtains improved
performance on several head probing tasks when compared with SAM and CLIP. We
further show that SAM-CLIP not only retains the foundational strengths of its
precursor models but also introduces synergistic functionalities, most notably
in zero-shot semantic segmentation, where SAM-CLIP establishes new
state-of-the-art results on 5 benchmarks. It outperforms previous models that
are specifically designed for this task by a large margin, including +6.8% and
+5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.