ChatPaper.aiChatPaper

SAM-CLIP : Fusion des modèles de fondation visuelle pour une compréhension sémantique et spatiale

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

October 23, 2023
Auteurs: Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari
cs.AI

Résumé

Le paysage des modèles de base pour la vision (VFMs) disponibles publiquement, tels que CLIP et Segment Anything Model (SAM), s'étend rapidement. Les VFMs sont dotés de capacités distinctes découlant de leurs objectifs de pré-entraînement. Par exemple, CLIP excelle dans la compréhension sémantique, tandis que SAM se spécialise dans la compréhension spatiale pour la segmentation. Dans ce travail, nous introduisons une recette simple pour fusionner efficacement les VFMs en un modèle unifié qui assimile leur expertise. Notre méthode proposée intègre l'apprentissage multitâche, les techniques d'apprentissage continu et la distillation enseignant-élève. Cette stratégie implique un coût computationnel nettement moindre par rapport à l'entraînement multitâche traditionnel à partir de zéro. De plus, elle ne nécessite qu'une petite fraction des ensembles de données de pré-entraînement initialement utilisés pour entraîner les modèles individuels. En appliquant notre méthode à SAM et CLIP, nous obtenons SAM-CLIP : un modèle unifié qui amalgame les forces de SAM et CLIP en une seule architecture, le rendant adapté aux applications sur appareils embarqués. Nous montrons que SAM-CLIP apprend des représentations visuelles plus riches, équipées à la fois de caractéristiques de localisation et sémantiques, adaptées à une large gamme de tâches de vision. SAM-CLIP obtient des performances améliorées sur plusieurs tâches de sondage par rapport à SAM et CLIP. Nous montrons en outre que SAM-CLIP conserve non seulement les forces fondamentales de ses modèles précurseurs, mais introduit également des fonctionnalités synergiques, notamment dans la segmentation sémantique zero-shot, où SAM-CLIP établit de nouveaux résultats de pointe sur 5 benchmarks. Il surpasse les modèles précédents spécifiquement conçus pour cette tâche par une large marge, y compris une amélioration de +6,8 % et +5,9 % en moyenne IoU sur les ensembles de données Pascal-VOC et COCO-Stuff, respectivement.
English
The landscape of publicly available vision foundation models (VFMs), such as CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed with distinct capabilities stemming from their pre-training objectives. For instance, CLIP excels in semantic understanding, while SAM specializes in spatial understanding for segmentation. In this work, we introduce a simple recipe to efficiently merge VFMs into a unified model that assimilates their expertise. Our proposed method integrates multi-task learning, continual learning techniques, and teacher-student distillation. This strategy entails significantly less computational cost compared to traditional multi-task training from scratch. Additionally, it only demands a small fraction of the pre-training datasets that were initially used to train individual models. By applying our method to SAM and CLIP, we derive SAM-CLIP: a unified model that amalgamates the strengths of SAM and CLIP into a single backbone, making it apt for edge device applications. We show that SAM-CLIP learns richer visual representations, equipped with both localization and semantic features, suitable for a broad range of vision tasks. SAM-CLIP obtains improved performance on several head probing tasks when compared with SAM and CLIP. We further show that SAM-CLIP not only retains the foundational strengths of its precursor models but also introduces synergistic functionalities, most notably in zero-shot semantic segmentation, where SAM-CLIP establishes new state-of-the-art results on 5 benchmarks. It outperforms previous models that are specifically designed for this task by a large margin, including +6.8% and +5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.
PDF234December 15, 2024