un^2CLIP: Mejora de la capacidad de captura de detalles visuales de CLIP mediante la inversión de unCLIP
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
May 30, 2025
Autores: Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
cs.AI
Resumen
El preentrenamiento de lenguaje-imagen contrastivo (CLIP, por sus siglas en inglés) se ha convertido en un modelo fundamental y ha sido aplicado a diversas tareas de visión y multimodales. Sin embargo, trabajos recientes indican que CLIP tiene dificultades para distinguir diferencias detalladas en las imágenes y muestra un rendimiento subóptimo en tareas de predicción densa y multimodales centradas en la visión. Por lo tanto, este trabajo se enfoca en mejorar los modelos CLIP existentes, con el objetivo de capturar tantos detalles visuales en las imágenes como sea posible. Descubrimos que un tipo específico de modelos generativos, unCLIP, proporciona un marco adecuado para alcanzar nuestro objetivo. En concreto, unCLIP entrena un generador de imágenes condicionado en la incrustación de imágenes de CLIP. En otras palabras, invierte el codificador de imágenes de CLIP. En comparación con los modelos discriminativos como CLIP, los modelos generativos son mejores para capturar detalles de las imágenes porque están entrenados para aprender la distribución de datos de las imágenes. Además, el espacio de entrada condicional de unCLIP se alinea con el espacio original de incrustación texto-imagen de CLIP. Por lo tanto, proponemos invertir unCLIP (denominado un^2CLIP) para mejorar el modelo CLIP. De esta manera, el codificador de imágenes mejorado puede adquirir la capacidad de captura de detalles visuales de unCLIP mientras mantiene su alineación con el codificador de texto original simultáneamente. Evaluamos nuestro CLIP mejorado en diversas tareas en las que se ha aplicado CLIP, incluyendo el desafiante benchmark MMVP-VLM, la tarea de segmentación de vocabulario abierto de predicción densa y las tareas de modelos de lenguaje multimodal de gran escala. Los experimentos muestran que un^2CLIP mejora significativamente el CLIP original y los métodos previos de mejora de CLIP. El código y los modelos estarán disponibles en https://github.com/LiYinqi/un2CLIP.
English
Contrastive Language-Image Pre-training (CLIP) has become a foundation model
and has been applied to various vision and multimodal tasks. However, recent
works indicate that CLIP falls short in distinguishing detailed differences in
images and shows suboptimal performance on dense-prediction and vision-centric
multimodal tasks. Therefore, this work focuses on improving existing CLIP
models, aiming to capture as many visual details in images as possible. We find
that a specific type of generative models, unCLIP, provides a suitable
framework for achieving our goal. Specifically, unCLIP trains an image
generator conditioned on the CLIP image embedding. In other words, it inverts
the CLIP image encoder. Compared to discriminative models like CLIP, generative
models are better at capturing image details because they are trained to learn
the data distribution of images. Additionally, the conditional input space of
unCLIP aligns with CLIP's original image-text embedding space. Therefore, we
propose to invert unCLIP (dubbed un^2CLIP) to improve the CLIP model. In this
way, the improved image encoder can gain unCLIP's visual detail capturing
ability while preserving its alignment with the original text encoder
simultaneously. We evaluate our improved CLIP across various tasks to which
CLIP has been applied, including the challenging MMVP-VLM benchmark, the
dense-prediction open-vocabulary segmentation task, and multimodal large
language model tasks. Experiments show that un^2CLIP significantly improves
the original CLIP and previous CLIP improvement methods. Code and models will
be available at https://github.com/LiYinqi/un2CLIP.