un^2CLIP: Melhorando a Capacidade de Captura de Detalhes Visuais do CLIP por meio da Inversão do unCLIP
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
May 30, 2025
Autores: Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
cs.AI
Resumo
O pré-treinamento contrastivo de linguagem-imagem (CLIP) tornou-se um modelo fundamental e tem sido aplicado a diversas tarefas visuais e multimodais. No entanto, trabalhos recentes indicam que o CLIP apresenta dificuldades em distinguir diferenças detalhadas em imagens e mostra desempenho subótimo em tarefas de predição densa e multimodais centradas em visão. Portanto, este trabalho foca em melhorar os modelos CLIP existentes, visando capturar o máximo de detalhes visuais nas imagens. Descobrimos que um tipo específico de modelos generativos, o unCLIP, fornece uma estrutura adequada para alcançar nosso objetivo. Especificamente, o unCLIP treina um gerador de imagens condicionado na incorporação de imagem do CLIP. Em outras palavras, ele inverte o codificador de imagem do CLIP. Comparados a modelos discriminativos como o CLIP, os modelos generativos são melhores em capturar detalhes de imagens, pois são treinados para aprender a distribuição de dados das imagens. Além disso, o espaço de entrada condicional do unCLIP está alinhado com o espaço original de incorporação texto-imagem do CLIP. Portanto, propomos inverter o unCLIP (denominado un^2CLIP) para melhorar o modelo CLIP. Dessa forma, o codificador de imagem aprimorado pode adquirir a capacidade de captura de detalhes visuais do unCLIP, mantendo simultaneamente seu alinhamento com o codificador de texto original. Avaliamos nosso CLIP aprimorado em várias tarefas às quais o CLIP foi aplicado, incluindo o desafiador benchmark MMVP-VLM, a tarefa de segmentação de vocabulário aberto com predição densa e tarefas de modelos de linguagem multimodal de grande escala. Os experimentos mostram que o un^2CLIP melhora significativamente o CLIP original e os métodos anteriores de aprimoramento do CLIP. O código e os modelos estarão disponíveis em https://github.com/LiYinqi/un2CLIP.
English
Contrastive Language-Image Pre-training (CLIP) has become a foundation model
and has been applied to various vision and multimodal tasks. However, recent
works indicate that CLIP falls short in distinguishing detailed differences in
images and shows suboptimal performance on dense-prediction and vision-centric
multimodal tasks. Therefore, this work focuses on improving existing CLIP
models, aiming to capture as many visual details in images as possible. We find
that a specific type of generative models, unCLIP, provides a suitable
framework for achieving our goal. Specifically, unCLIP trains an image
generator conditioned on the CLIP image embedding. In other words, it inverts
the CLIP image encoder. Compared to discriminative models like CLIP, generative
models are better at capturing image details because they are trained to learn
the data distribution of images. Additionally, the conditional input space of
unCLIP aligns with CLIP's original image-text embedding space. Therefore, we
propose to invert unCLIP (dubbed un^2CLIP) to improve the CLIP model. In this
way, the improved image encoder can gain unCLIP's visual detail capturing
ability while preserving its alignment with the original text encoder
simultaneously. We evaluate our improved CLIP across various tasks to which
CLIP has been applied, including the challenging MMVP-VLM benchmark, the
dense-prediction open-vocabulary segmentation task, and multimodal large
language model tasks. Experiments show that un^2CLIP significantly improves
the original CLIP and previous CLIP improvement methods. Code and models will
be available at https://github.com/LiYinqi/un2CLIP.