EVF-SAM: 텍스트 프롬프트 기반 세그먼트 애니싱을 위한 초기 시각-언어 융합 모델
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model
June 28, 2024
저자: Yuxuan Zhang, Tianheng Cheng, Rui Hu, ei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
cs.AI
초록
Segment Anything Model(SAM)은 시각적 프롬프트를 통한 우수한 인터랙티브 세그멘테이션 능력으로 널리 주목받았지만, 텍스트 프롬프트에 대한 추가적인 탐구는 부족한 상태입니다. 본 논문에서는 참조 표현 세그멘테이션을 위해 SAM을 적용하는 데 적합한 텍스트 프롬프트 인코더(예: CLIP 또는 LLM)를 실증적으로 조사하고, Early Vision-language Fusion 기반 SAM(EVF-SAM)을 소개합니다. EVF-SAM은 다중모달 프롬프트(이미지 및 텍스트)를 활용하고, 참조 프롬프트를 생성하기 위해 사전 훈련된 비전-언어 모델과 세그멘테이션을 위한 SAM 모델로 구성된 간단하면서도 효과적인 참조 세그멘테이션 방법입니다. 놀랍게도, 우리는 (1) 다중모달 프롬프트와 (2) 초기 융합을 갖춘 비전-언어 모델(예: BEIT-3)이 정확한 참조 세그멘테이션을 위해 SAM을 프롬프트하는 데 유리하다는 점을 관찰했습니다. 우리의 실험은 BEIT-3 기반의 제안된 EVF-SAM이 RefCOCO/+/g에서 참조 표현 세그멘테이션을 위해 최첨단 성능을 달성할 수 있음을 보여주며, 초기 비전-언어 융합을 통해 SAM을 프롬프트하는 것의 우수성을 입증합니다. 또한, 제안된 EVF-SAM은 1.32B 매개변수로 이전의 대형 다중모달 모델 기반 SAM 방법과 비교하여 매개변수를 거의 82% 줄이면서도 현저히 더 높은 성능을 달성합니다.
English
Segment Anything Model (SAM) has attracted widespread attention for its
superior interactive segmentation capabilities with visual prompts while
lacking further exploration of text prompts. In this paper, we empirically
investigate what text prompt encoders (e.g., CLIP or LLM) are good for adapting
SAM for referring expression segmentation and introduce the Early
Vision-language Fusion-based SAM (EVF-SAM). EVF-SAM is a simple yet effective
referring segmentation method which exploits multimodal prompts (i.e., image
and text) and comprises a pre-trained vision-language model to generate
referring prompts and a SAM model for segmentation. Surprisingly, we observe
that: (1) multimodal prompts and (2) vision-language models with early fusion
(e.g., BEIT-3) are beneficial for prompting SAM for accurate referring
segmentation. Our experiments show that the proposed EVF-SAM based on BEIT-3
can obtain state-of-the-art performance on RefCOCO/+/g for referring expression
segmentation and demonstrate the superiority of prompting SAM with early
vision-language fusion. In addition, the proposed EVF-SAM with 1.32B parameters
achieves remarkably higher performance while reducing nearly 82% of parameters
compared to previous SAM methods based on large multimodal models.Summary
AI-Generated Summary