SAM-CLIP: Integrando Modelos Fundamentais de Visão para Compreensão Semântica e Espacial
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
October 23, 2023
Autores: Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari
cs.AI
Resumo
O cenário de modelos de base de visão (VFMs) publicamente disponíveis, como CLIP e o Segment Anything Model (SAM), está se expandindo rapidamente. Os VFMs são dotados de capacidades distintas decorrentes de seus objetivos de pré-treinamento. Por exemplo, o CLIP se destaca na compreensão semântica, enquanto o SAM é especializado na compreensão espacial para segmentação. Neste trabalho, apresentamos uma receita simples para fundir eficientemente VFMs em um modelo unificado que assimila suas expertises. Nosso método proposto integra aprendizado multitarefa, técnicas de aprendizado contínuo e destilação professor-aluno. Essa estratégia envolve um custo computacional significativamente menor em comparação com o treinamento multitarefa tradicional a partir do zero. Além disso, exige apenas uma pequena fração dos conjuntos de dados de pré-treinamento que foram inicialmente usados para treinar os modelos individuais. Ao aplicar nosso método ao SAM e ao CLIP, derivamos o SAM-CLIP: um modelo unificado que amalgama os pontos fortes do SAM e do CLIP em uma única arquitetura, tornando-o adequado para aplicações em dispositivos de borda. Mostramos que o SAM-CLIP aprende representações visuais mais ricas, equipadas com características de localização e semânticas, adequadas para uma ampla gama de tarefas de visão. O SAM-CLIP obtém desempenho aprimorado em várias tarefas de sondagem de cabeça quando comparado ao SAM e ao CLIP. Além disso, demonstramos que o SAM-CLIP não apenas mantém os pontos fortes fundamentais de seus modelos predecessores, mas também introduz funcionalidades sinérgicas, mais notavelmente na segmentação semântica zero-shot, onde o SAM-CLIP estabelece novos resultados de ponta em 5 benchmarks. Ele supera modelos anteriores especificamente projetados para essa tarefa por uma grande margem, incluindo melhorias de +6,8% e +5,9% na média IoU nos conjuntos de dados Pascal-VOC e COCO-Stuff, respectivamente.
English
The landscape of publicly available vision foundation models (VFMs), such as
CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed
with distinct capabilities stemming from their pre-training objectives. For
instance, CLIP excels in semantic understanding, while SAM specializes in
spatial understanding for segmentation. In this work, we introduce a simple
recipe to efficiently merge VFMs into a unified model that assimilates their
expertise. Our proposed method integrates multi-task learning, continual
learning techniques, and teacher-student distillation. This strategy entails
significantly less computational cost compared to traditional multi-task
training from scratch. Additionally, it only demands a small fraction of the
pre-training datasets that were initially used to train individual models. By
applying our method to SAM and CLIP, we derive SAM-CLIP: a unified model that
amalgamates the strengths of SAM and CLIP into a single backbone, making it apt
for edge device applications. We show that SAM-CLIP learns richer visual
representations, equipped with both localization and semantic features,
suitable for a broad range of vision tasks. SAM-CLIP obtains improved
performance on several head probing tasks when compared with SAM and CLIP. We
further show that SAM-CLIP not only retains the foundational strengths of its
precursor models but also introduces synergistic functionalities, most notably
in zero-shot semantic segmentation, where SAM-CLIP establishes new
state-of-the-art results on 5 benchmarks. It outperforms previous models that
are specifically designed for this task by a large margin, including +6.8% and
+5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.