un^2CLIP: unCLIP 역변환을 통해 CLIP의 시각적 세부 정보 포착 능력 향상
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
May 30, 2025
저자: Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
cs.AI
초록
대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 기초 모델로 자리 잡아 다양한 시각 및 멀티모달 작업에 적용되어 왔습니다. 그러나 최근 연구에 따르면, CLIP은 이미지의 세부 차이를 구분하는 데 한계가 있으며, 밀집 예측(dense-prediction) 및 시각 중심의 멀티모달 작업에서 최적의 성능을 보이지 못합니다. 따라서 본 연구는 기존 CLIP 모델을 개선하여 가능한 한 많은 시각적 세부 사항을 포착하는 데 초점을 맞추고 있습니다. 우리는 특정 유형의 생성 모델인 unCLIP이 이러한 목표를 달성하기에 적합한 프레임워크를 제공한다는 사실을 발견했습니다. 구체적으로, unCLIP은 CLIP 이미지 임베딩을 조건으로 이미지 생성기를 학습시킵니다. 즉, CLIP 이미지 인코더를 역전파(invert)합니다. CLIP과 같은 판별 모델과 비교할 때, 생성 모델은 이미지의 데이터 분포를 학습하도록 훈련되기 때문에 이미지 세부 사항을 더 잘 포착할 수 있습니다. 또한, unCLIP의 조건부 입력 공간은 CLIP의 원래 이미지-텍스트 임베딩 공간과 일치합니다. 따라서 우리는 unCLIP을 역전파하여(이를 un^2CLIP이라 명명) CLIP 모델을 개선할 것을 제안합니다. 이를 통해 개선된 이미지 인코더는 unCLIP의 시각적 세부 사항 포착 능력을 얻으면서도 원래 텍스트 인코더와의 정렬을 동시에 유지할 수 있습니다. 우리는 개선된 CLIP을 CLIP이 적용된 다양한 작업에서 평가했으며, 이는 도전적인 MMVP-VLM 벤치마크, 밀집 예측 개방형 어휘 분할(open-vocabulary segmentation) 작업, 그리고 멀티모달 대형 언어 모델 작업을 포함합니다. 실험 결과, un^2CLIP은 원래의 CLIP과 이전의 CLIP 개선 방법들을 크게 능가하는 것으로 나타났습니다. 코드와 모델은 https://github.com/LiYinqi/un2CLIP에서 확인할 수 있습니다.
English
Contrastive Language-Image Pre-training (CLIP) has become a foundation model
and has been applied to various vision and multimodal tasks. However, recent
works indicate that CLIP falls short in distinguishing detailed differences in
images and shows suboptimal performance on dense-prediction and vision-centric
multimodal tasks. Therefore, this work focuses on improving existing CLIP
models, aiming to capture as many visual details in images as possible. We find
that a specific type of generative models, unCLIP, provides a suitable
framework for achieving our goal. Specifically, unCLIP trains an image
generator conditioned on the CLIP image embedding. In other words, it inverts
the CLIP image encoder. Compared to discriminative models like CLIP, generative
models are better at capturing image details because they are trained to learn
the data distribution of images. Additionally, the conditional input space of
unCLIP aligns with CLIP's original image-text embedding space. Therefore, we
propose to invert unCLIP (dubbed un^2CLIP) to improve the CLIP model. In this
way, the improved image encoder can gain unCLIP's visual detail capturing
ability while preserving its alignment with the original text encoder
simultaneously. We evaluate our improved CLIP across various tasks to which
CLIP has been applied, including the challenging MMVP-VLM benchmark, the
dense-prediction open-vocabulary segmentation task, and multimodal large
language model tasks. Experiments show that un^2CLIP significantly improves
the original CLIP and previous CLIP improvement methods. Code and models will
be available at https://github.com/LiYinqi/un2CLIP.