확산 피드백이 CLIP의 성능을 향상시킨다
Diffusion Feedback Helps CLIP See Better
July 29, 2024
저자: Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang
cs.AI
초록
도메인과 모달리티를 넘나드는 오픈 월드 표현을 추상화하는 데 뛰어난 Contrastive Language-Image Pre-training(CLIP)은 다양한 비전 및 멀티모달 작업의 기반이 되었습니다. 그러나 최근 연구에 따르면, CLIP은 방향, 수량, 색상, 구조 등을 거의 구분하지 못하는 심각한 시각적 결함을 가지고 있습니다. 이러한 시각적 결함은 CLIP을 기반으로 구축된 멀티모달 대형 언어 모델(MLLM)의 인지 능력도 제한합니다. 주요 원인은 CLIP을 훈련하는 데 사용된 이미지-텍스트 쌍이 텍스트의 독특함과 이미지의 다양성이 부족하여 본질적으로 편향되어 있기 때문일 수 있습니다. 본 연구에서는 CLIP 모델을 위한 간단한 사후 훈련 접근 방식을 제시하며, 이를 통해 자기 지도 확산 프로세스를 통해 시각적 결함을 크게 극복합니다. 우리는 DIffusion 모델을 CLIP의 Visual Assistant로 사용하는 DIVA를 소개합니다. 구체적으로, DIVA는 텍스트-이미지 확산 모델의 생성적 피드백을 활용하여 CLIP 표현을 최적화하며, 이때 이미지만 사용하고(해당 텍스트 없이) 수행됩니다. 우리는 DIVA가 세밀한 시각적 능력을 크게 평가하는 MMVP-VLM 벤치마크에서 CLIP의 성능을 크게 향상시키고(예: 3-7%), MLLM 및 비전 모델의 멀티모달 이해 및 세분화 작업 성능도 향상시킴을 보여줍니다. 29개의 이미지 분류 및 검색 벤치마크에 대한 광범위한 평가를 통해 우리의 프레임워크가 CLIP의 강력한 제로샷 능력을 유지함을 확인했습니다. 코드는 https://github.com/baaivision/DIVA에서 제공될 예정입니다.
English
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting
open-world representations across domains and modalities, has become a
foundation for a variety of vision and multimodal tasks. However, recent
studies reveal that CLIP has severe visual shortcomings, such as which can
hardly distinguish orientation, quantity, color, structure, etc. These visual
shortcomings also limit the perception capabilities of multimodal large
language models (MLLMs) built on CLIP. The main reason could be that the
image-text pairs used to train CLIP are inherently biased, due to the lack of
the distinctiveness of the text and the diversity of images. In this work, we
present a simple post-training approach for CLIP models, which largely
overcomes its visual shortcomings via a self-supervised diffusion process. We
introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP.
Specifically, DIVA leverages generative feedback from text-to-image diffusion
models to optimize CLIP representations, with only images (without
corresponding text). We demonstrate that DIVA improves CLIP's performance on
the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities
to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and
vision models on multimodal understanding and segmentation tasks. Extensive
evaluation on 29 image classification and retrieval benchmarks confirms that
our framework preserves CLIP's strong zero-shot capabilities. The code will be
available at https://github.com/baaivision/DIVA.Summary
AI-Generated Summary