un^2CLIP: Migliorare la capacità di cattura dei dettagli visivi di CLIP tramite l'inversione di unCLIP
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
May 30, 2025
Autori: Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
cs.AI
Abstract
Il Contrastive Language-Image Pre-training (CLIP) è diventato un modello di riferimento ed è stato applicato a vari compiti visivi e multimodali. Tuttavia, lavori recenti indicano che CLIP ha difficoltà nel distinguere differenze dettagliate nelle immagini e mostra prestazioni subottimali in compiti di predizione densa e multimodali centrati sulla visione. Pertanto, questo lavoro si concentra sul miglioramento dei modelli CLIP esistenti, con l'obiettivo di catturare il maggior numero possibile di dettagli visivi nelle immagini. Abbiamo scoperto che un tipo specifico di modelli generativi, unCLIP, fornisce un framework adatto per raggiungere il nostro obiettivo. Nello specifico, unCLIP addestra un generatore di immagini condizionato sull'embedding dell'immagine di CLIP. In altre parole, inverte l'encoder di immagini di CLIP. Rispetto ai modelli discriminativi come CLIP, i modelli generativi sono migliori nel catturare i dettagli delle immagini perché sono addestrati per apprendere la distribuzione dei dati delle immagini. Inoltre, lo spazio di input condizionale di unCLIP si allinea con lo spazio originale di embedding immagine-testo di CLIP. Pertanto, proponiamo di invertire unCLIP (denominato un^2CLIP) per migliorare il modello CLIP. In questo modo, l'encoder di immagini migliorato può acquisire la capacità di unCLIP di catturare dettagli visivi mantenendo contemporaneamente l'allineamento con l'encoder di testo originale. Valutiamo il nostro CLIP migliorato su vari compiti a cui CLIP è stato applicato, incluso il benchmark impegnativo MMVP-VLM, il compito di segmentazione open-vocabulary a predizione densa e i compiti multimodali di grandi modelli linguistici. Gli esperimenti dimostrano che un^2CLIP migliora significativamente il CLIP originale e i precedenti metodi di miglioramento di CLIP. Codice e modelli saranno disponibili su https://github.com/LiYinqi/un2CLIP.
English
Contrastive Language-Image Pre-training (CLIP) has become a foundation model
and has been applied to various vision and multimodal tasks. However, recent
works indicate that CLIP falls short in distinguishing detailed differences in
images and shows suboptimal performance on dense-prediction and vision-centric
multimodal tasks. Therefore, this work focuses on improving existing CLIP
models, aiming to capture as many visual details in images as possible. We find
that a specific type of generative models, unCLIP, provides a suitable
framework for achieving our goal. Specifically, unCLIP trains an image
generator conditioned on the CLIP image embedding. In other words, it inverts
the CLIP image encoder. Compared to discriminative models like CLIP, generative
models are better at capturing image details because they are trained to learn
the data distribution of images. Additionally, the conditional input space of
unCLIP aligns with CLIP's original image-text embedding space. Therefore, we
propose to invert unCLIP (dubbed un^2CLIP) to improve the CLIP model. In this
way, the improved image encoder can gain unCLIP's visual detail capturing
ability while preserving its alignment with the original text encoder
simultaneously. We evaluate our improved CLIP across various tasks to which
CLIP has been applied, including the challenging MMVP-VLM benchmark, the
dense-prediction open-vocabulary segmentation task, and multimodal large
language model tasks. Experiments show that un^2CLIP significantly improves
the original CLIP and previous CLIP improvement methods. Code and models will
be available at https://github.com/LiYinqi/un2CLIP.