ChatPaper.aiChatPaper

SAM-CLIP: Объединение базовых моделей компьютерного зрения для семантического и пространственного понимания

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

October 23, 2023
Авторы: Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari
cs.AI

Аннотация

Ландшафт публично доступных базовых моделей для задач компьютерного зрения (Vision Foundation Models, VFMs), таких как CLIP и Segment Anything Model (SAM), стремительно расширяется. VFMs обладают уникальными возможностями, обусловленными их целями предварительного обучения. Например, CLIP преуспевает в семантическом понимании, в то время как SAM специализируется на пространственном понимании для задач сегментации. В данной работе мы представляем простой метод для эффективного объединения VFMs в единую модель, которая ассимилирует их экспертизу. Наш предложенный подход интегрирует многозадачное обучение, методы непрерывного обучения и дистилляцию по схеме "учитель-ученик". Эта стратегия требует значительно меньших вычислительных затрат по сравнению с традиционным многозадачным обучением с нуля. Кроме того, она требует лишь небольшой части наборов данных для предварительного обучения, которые изначально использовались для тренировки отдельных моделей. Применив наш метод к SAM и CLIP, мы создали SAM-CLIP: единую модель, которая объединяет сильные стороны SAM и CLIP в единый бэкбон, делая её подходящей для использования на устройствах с ограниченными ресурсами. Мы показываем, что SAM-CLIP обучается более богатым визуальным представлениям, оснащённым как локализационными, так и семантическими признаками, что делает её пригодной для широкого спектра задач компьютерного зрения. SAM-CLIP демонстрирует улучшенную производительность на нескольких задачах тестирования по сравнению с SAM и CLIP. Мы также показываем, что SAM-CLIP не только сохраняет фундаментальные преимущества своих предшественников, но и вводит синергетические функциональные возможности, наиболее заметные в задаче семантической сегментации с нулевым обучением, где SAM-CLIP устанавливает новые рекорды на 5 бенчмарках. Она значительно превосходит предыдущие модели, специально разработанные для этой задачи, включая улучшение среднего IoU на 6,8% и 5,9% на наборах данных Pascal-VOC и COCO-Stuff соответственно.
English
The landscape of publicly available vision foundation models (VFMs), such as CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed with distinct capabilities stemming from their pre-training objectives. For instance, CLIP excels in semantic understanding, while SAM specializes in spatial understanding for segmentation. In this work, we introduce a simple recipe to efficiently merge VFMs into a unified model that assimilates their expertise. Our proposed method integrates multi-task learning, continual learning techniques, and teacher-student distillation. This strategy entails significantly less computational cost compared to traditional multi-task training from scratch. Additionally, it only demands a small fraction of the pre-training datasets that were initially used to train individual models. By applying our method to SAM and CLIP, we derive SAM-CLIP: a unified model that amalgamates the strengths of SAM and CLIP into a single backbone, making it apt for edge device applications. We show that SAM-CLIP learns richer visual representations, equipped with both localization and semantic features, suitable for a broad range of vision tasks. SAM-CLIP obtains improved performance on several head probing tasks when compared with SAM and CLIP. We further show that SAM-CLIP not only retains the foundational strengths of its precursor models but also introduces synergistic functionalities, most notably in zero-shot semantic segmentation, where SAM-CLIP establishes new state-of-the-art results on 5 benchmarks. It outperforms previous models that are specifically designed for this task by a large margin, including +6.8% and +5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.
PDF234December 15, 2024