SAM-CLIP: Integración de Modelos Fundamentales de Visión para la Comprensión Semántica y Espacial
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
October 23, 2023
Autores: Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari
cs.AI
Resumen
El panorama de los modelos fundamentales de visión (VFMs, por sus siglas en inglés) disponibles públicamente, como CLIP y Segment Anything Model (SAM), se está expandiendo rápidamente. Los VFMs están dotados de capacidades distintivas que derivan de sus objetivos de preentrenamiento. Por ejemplo, CLIP sobresale en la comprensión semántica, mientras que SAM se especializa en la comprensión espacial para la segmentación. En este trabajo, presentamos una receta simple para fusionar eficientemente VFMs en un modelo unificado que asimila su experiencia. Nuestro método propuesto integra el aprendizaje multitarea, técnicas de aprendizaje continuo y la destilación maestro-estudiante. Esta estrategia implica un costo computacional significativamente menor en comparación con el entrenamiento multitarea tradicional desde cero. Además, solo requiere una pequeña fracción de los conjuntos de datos de preentrenamiento que se utilizaron inicialmente para entrenar los modelos individuales. Al aplicar nuestro método a SAM y CLIP, derivamos SAM-CLIP: un modelo unificado que amalgama las fortalezas de SAM y CLIP en una sola arquitectura, haciéndolo apto para aplicaciones en dispositivos de borde. Demostramos que SAM-CLIP aprende representaciones visuales más ricas, equipadas tanto con características de localización como semánticas, adecuadas para una amplia gama de tareas de visión. SAM-CLIP obtiene un rendimiento mejorado en varias tareas de sondeo en comparación con SAM y CLIP. Además, mostramos que SAM-CLIP no solo conserva las fortalezas fundamentales de sus modelos precursores, sino que también introduce funcionalidades sinérgicas, destacándose especialmente en la segmentación semántica zero-shot, donde SAM-CLIP establece nuevos resultados de vanguardia en 5 benchmarks. Supera a modelos anteriores específicamente diseñados para esta tarea por un amplio margen, incluyendo mejoras de +6.8% y +5.9% en la media de IoU en los conjuntos de datos Pascal-VOC y COCO-Stuff, respectivamente.
English
The landscape of publicly available vision foundation models (VFMs), such as
CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed
with distinct capabilities stemming from their pre-training objectives. For
instance, CLIP excels in semantic understanding, while SAM specializes in
spatial understanding for segmentation. In this work, we introduce a simple
recipe to efficiently merge VFMs into a unified model that assimilates their
expertise. Our proposed method integrates multi-task learning, continual
learning techniques, and teacher-student distillation. This strategy entails
significantly less computational cost compared to traditional multi-task
training from scratch. Additionally, it only demands a small fraction of the
pre-training datasets that were initially used to train individual models. By
applying our method to SAM and CLIP, we derive SAM-CLIP: a unified model that
amalgamates the strengths of SAM and CLIP into a single backbone, making it apt
for edge device applications. We show that SAM-CLIP learns richer visual
representations, equipped with both localization and semantic features,
suitable for a broad range of vision tasks. SAM-CLIP obtains improved
performance on several head probing tasks when compared with SAM and CLIP. We
further show that SAM-CLIP not only retains the foundational strengths of its
precursor models but also introduces synergistic functionalities, most notably
in zero-shot semantic segmentation, where SAM-CLIP establishes new
state-of-the-art results on 5 benchmarks. It outperforms previous models that
are specifically designed for this task by a large margin, including +6.8% and
+5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.