un^2CLIP: Verbesserung der Fähigkeit von CLIP zur Erfassung visueller Details durch Invertierung von unCLIP
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
May 30, 2025
Autoren: Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
cs.AI
Zusammenfassung
Contrastive Language-Image Pre-training (CLIP) hat sich als ein Grundlagenmodell etabliert und wird in verschiedenen visuellen und multimodalen Aufgaben eingesetzt. Jüngste Arbeiten zeigen jedoch, dass CLIP Schwierigkeiten hat, detaillierte Unterschiede in Bildern zu erkennen, und bei dicht vorhergesagten sowie visuell zentrierten multimodalen Aufgaben suboptimale Leistungen erbringt. Daher konzentriert sich diese Arbeit darauf, bestehende CLIP-Modelle zu verbessern, mit dem Ziel, möglichst viele visuelle Details in Bildern zu erfassen. Wir stellen fest, dass eine spezielle Art von generativen Modellen, unCLIP, einen geeigneten Rahmen bietet, um dieses Ziel zu erreichen. Konkret trainiert unCLIP einen Bildgenerator, der auf der CLIP-Bildeinbettung basiert. Mit anderen Worten, es invertiert den CLIP-Bildencoder. Im Vergleich zu diskriminativen Modellen wie CLIP sind generative Modelle besser darin, Bilddetails zu erfassen, da sie darauf trainiert sind, die Datenverteilung von Bildern zu lernen. Darüber hinaus stimmt der bedingte Eingaberaum von unCLIP mit dem ursprünglichen Bild-Text-Einbettungsraum von CLIP überein. Daher schlagen wir vor, unCLIP zu invertieren (bezeichnet als un^2CLIP), um das CLIP-Modell zu verbessern. Auf diese Weise kann der verbesserte Bildencoder die Fähigkeit von unCLIP zur Erfassung visueller Details erlangen, während gleichzeitig die Ausrichtung mit dem ursprünglichen Textencoder erhalten bleibt. Wir evaluieren unser verbessertes CLIP in verschiedenen Aufgaben, für die CLIP eingesetzt wurde, darunter die anspruchsvolle MMVP-VLM-Benchmark, die dicht vorhergesagte Open-Vocabulary-Segmentierungsaufgabe und multimodale Aufgaben mit großen Sprachmodellen. Experimente zeigen, dass un^2CLIP das ursprüngliche CLIP und frühere CLIP-Verbesserungsmethoden deutlich übertrifft. Code und Modelle werden unter https://github.com/LiYinqi/un2CLIP verfügbar sein.
English
Contrastive Language-Image Pre-training (CLIP) has become a foundation model
and has been applied to various vision and multimodal tasks. However, recent
works indicate that CLIP falls short in distinguishing detailed differences in
images and shows suboptimal performance on dense-prediction and vision-centric
multimodal tasks. Therefore, this work focuses on improving existing CLIP
models, aiming to capture as many visual details in images as possible. We find
that a specific type of generative models, unCLIP, provides a suitable
framework for achieving our goal. Specifically, unCLIP trains an image
generator conditioned on the CLIP image embedding. In other words, it inverts
the CLIP image encoder. Compared to discriminative models like CLIP, generative
models are better at capturing image details because they are trained to learn
the data distribution of images. Additionally, the conditional input space of
unCLIP aligns with CLIP's original image-text embedding space. Therefore, we
propose to invert unCLIP (dubbed un^2CLIP) to improve the CLIP model. In this
way, the improved image encoder can gain unCLIP's visual detail capturing
ability while preserving its alignment with the original text encoder
simultaneously. We evaluate our improved CLIP across various tasks to which
CLIP has been applied, including the challenging MMVP-VLM benchmark, the
dense-prediction open-vocabulary segmentation task, and multimodal large
language model tasks. Experiments show that un^2CLIP significantly improves
the original CLIP and previous CLIP improvement methods. Code and models will
be available at https://github.com/LiYinqi/un2CLIP.