un^2CLIP: Verbetering van CLIP's vermogen om visuele details vast te leggen via inversie van unCLIP
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
May 30, 2025
Auteurs: Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
cs.AI
Samenvatting
Contrastive Language-Image Pre-training (CLIP) is uitgegroeid tot een fundamenteel model en is toegepast op diverse visuele en multimodale taken. Recente studies geven echter aan dat CLIP tekortschiet in het onderscheiden van gedetailleerde verschillen in afbeeldingen en suboptimale prestaties vertoont bij dichtvoorspellende en visueel-centrische multimodale taken. Daarom richt dit werk zich op het verbeteren van bestaande CLIP-modellen, met als doel zoveel mogelijk visuele details in afbeeldingen vast te leggen. We ontdekken dat een specifiek type generatief model, unCLIP, een geschikt raamwerk biedt om ons doel te bereiken. Specifiek traint unCLIP een afbeeldingsgenerator die is geconditioneerd op de CLIP-afbeeldingsembedding. Met andere woorden, het inverteert de CLIP-afbeeldingsencoder. In vergelijking met discriminerende modellen zoals CLIP, zijn generatieve modellen beter in het vastleggen van afbeeldingsdetails omdat ze zijn getraind om de gegevensverdeling van afbeeldingen te leren. Bovendien komt de conditionele invoerruimte van unCLIP overeen met de oorspronkelijke afbeelding-tekst-embeddingruimte van CLIP. Daarom stellen we voor om unCLIP te inverteren (genaamd un^2CLIP) om het CLIP-model te verbeteren. Op deze manier kan de verbeterde afbeeldingsencoder het vermogen van unCLIP om visuele details vast te leggen overnemen, terwijl tegelijkertijd de uitlijning met de oorspronkelijke tekstencoder behouden blijft. We evalueren onze verbeterde CLIP over diverse taken waarop CLIP is toegepast, waaronder de uitdagende MMVP-VLM-benchmark, de dichtvoorspellende open-vocabulary segmentatietaak en multimodale grote-taalmodeltaken. Experimenten tonen aan dat un^2CLIP de oorspronkelijke CLIP en eerdere CLIP-verbeteringsmethoden aanzienlijk verbetert. Code en modellen zullen beschikbaar zijn op https://github.com/LiYinqi/un2CLIP.
English
Contrastive Language-Image Pre-training (CLIP) has become a foundation model
and has been applied to various vision and multimodal tasks. However, recent
works indicate that CLIP falls short in distinguishing detailed differences in
images and shows suboptimal performance on dense-prediction and vision-centric
multimodal tasks. Therefore, this work focuses on improving existing CLIP
models, aiming to capture as many visual details in images as possible. We find
that a specific type of generative models, unCLIP, provides a suitable
framework for achieving our goal. Specifically, unCLIP trains an image
generator conditioned on the CLIP image embedding. In other words, it inverts
the CLIP image encoder. Compared to discriminative models like CLIP, generative
models are better at capturing image details because they are trained to learn
the data distribution of images. Additionally, the conditional input space of
unCLIP aligns with CLIP's original image-text embedding space. Therefore, we
propose to invert unCLIP (dubbed un^2CLIP) to improve the CLIP model. In this
way, the improved image encoder can gain unCLIP's visual detail capturing
ability while preserving its alignment with the original text encoder
simultaneously. We evaluate our improved CLIP across various tasks to which
CLIP has been applied, including the challenging MMVP-VLM benchmark, the
dense-prediction open-vocabulary segmentation task, and multimodal large
language model tasks. Experiments show that un^2CLIP significantly improves
the original CLIP and previous CLIP improvement methods. Code and models will
be available at https://github.com/LiYinqi/un2CLIP.