un^2CLIP : Amélioration de la capacité de capture des détails visuels de CLIP via l'inversion d'unCLIP
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
May 30, 2025
Auteurs: Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
cs.AI
Résumé
Le pré-entraînement contrastif langue-image (CLIP) est devenu un modèle de base et a été appliqué à diverses tâches de vision et multimodales. Cependant, des travaux récents indiquent que CLIP peine à distinguer les différences détaillées dans les images et montre des performances sous-optimales sur les tâches de prédiction dense et les tâches multimodales centrées sur la vision. Par conséquent, ce travail se concentre sur l'amélioration des modèles CLIP existants, visant à capturer autant de détails visuels dans les images que possible. Nous constatons qu'un type spécifique de modèles génératifs, unCLIP, fournit un cadre approprié pour atteindre notre objectif. Plus précisément, unCLIP entraîne un générateur d'images conditionné sur l'embedding d'image de CLIP. En d'autres termes, il inverse l'encodeur d'images de CLIP. Par rapport aux modèles discriminatifs comme CLIP, les modèles génératifs sont meilleurs pour capturer les détails des images car ils sont entraînés à apprendre la distribution des données des images. De plus, l'espace d'entrée conditionnel d'unCLIP s'aligne avec l'espace d'embedding image-texte original de CLIP. Par conséquent, nous proposons d'inverser unCLIP (appelé un^2CLIP) pour améliorer le modèle CLIP. De cette manière, l'encodeur d'images amélioré peut acquérir la capacité de capture de détails visuels d'unCLIP tout en préservant son alignement avec l'encodeur de texte original. Nous évaluons notre CLIP amélioré sur diverses tâches auxquelles CLIP a été appliqué, y compris le benchmark MMVP-VLM, la tâche de segmentation à vocabulaire ouvert de prédiction dense, et les tâches de modèles de langage multimodaux de grande taille. Les expériences montrent que un^2CLIP améliore significativement le CLIP original et les méthodes précédentes d'amélioration de CLIP. Le code et les modèles seront disponibles à l'adresse https://github.com/LiYinqi/un2CLIP.
English
Contrastive Language-Image Pre-training (CLIP) has become a foundation model
and has been applied to various vision and multimodal tasks. However, recent
works indicate that CLIP falls short in distinguishing detailed differences in
images and shows suboptimal performance on dense-prediction and vision-centric
multimodal tasks. Therefore, this work focuses on improving existing CLIP
models, aiming to capture as many visual details in images as possible. We find
that a specific type of generative models, unCLIP, provides a suitable
framework for achieving our goal. Specifically, unCLIP trains an image
generator conditioned on the CLIP image embedding. In other words, it inverts
the CLIP image encoder. Compared to discriminative models like CLIP, generative
models are better at capturing image details because they are trained to learn
the data distribution of images. Additionally, the conditional input space of
unCLIP aligns with CLIP's original image-text embedding space. Therefore, we
propose to invert unCLIP (dubbed un^2CLIP) to improve the CLIP model. In this
way, the improved image encoder can gain unCLIP's visual detail capturing
ability while preserving its alignment with the original text encoder
simultaneously. We evaluate our improved CLIP across various tasks to which
CLIP has been applied, including the challenging MMVP-VLM benchmark, the
dense-prediction open-vocabulary segmentation task, and multimodal large
language model tasks. Experiments show that un^2CLIP significantly improves
the original CLIP and previous CLIP improvement methods. Code and models will
be available at https://github.com/LiYinqi/un2CLIP.