Die Rückkopplung durch Diffusion hilft CLIP, besser zu sehen.
Diffusion Feedback Helps CLIP See Better
July 29, 2024
Autoren: Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang
cs.AI
Zusammenfassung
Das Contrastive Language-Image Pre-training (CLIP), das sich auf das Abstrahieren von offenen Weltrepräsentationen über Domänen und Modalitäten hinweg spezialisiert hat, ist zu einem Grundpfeiler für eine Vielzahl von Vision- und multimodalen Aufgaben geworden. Allerdings zeigen aktuelle Studien, dass CLIP schwerwiegende visuelle Mängel aufweist, wie z.B. die kaum vorhandene Unterscheidung von Orientierung, Menge, Farbe, Struktur usw. Diese visuellen Mängel beschränken auch die Wahrnehmungsfähigkeiten multimodaler großer Sprachmodelle (MLLMs), die auf CLIP aufbauen. Der Hauptgrund könnte sein, dass die Bild-Text-Paare, die zur Schulung von CLIP verwendet werden, inhärent voreingenommen sind, aufgrund des Mangels an Unterscheidungskraft des Textes und der Vielfalt der Bilder. In dieser Arbeit stellen wir einen einfachen Post-Training-Ansatz für CLIP-Modelle vor, der seine visuellen Mängel weitgehend durch einen selbstüberwachten Diffusionsprozess überwindet. Wir stellen DIVA vor, das das Diffusionsmodell als visuellen Assistenten für CLIP nutzt. Speziell nutzt DIVA generatives Feedback von Text-zu-Bild-Diffusionsmodellen zur Optimierung von CLIP-Repräsentationen, nur mit Bildern (ohne entsprechenden Text). Wir zeigen, dass DIVA die Leistung von CLIP im anspruchsvollen MMVP-VLM-Benchmark verbessert, der feinkörnige visuelle Fähigkeiten in großem Maße bewertet (z.B. 3-7%), und die Leistung von MLLMs und Vision-Modellen bei multimodalen Verständnis- und Segmentierungsaufgaben steigert. Eine umfangreiche Evaluation an 29 Bildklassifizierungs- und Abruf-Benchmarks bestätigt, dass unser Framework CLIPs starke Zero-Shot-Fähigkeiten bewahrt. Der Code wird unter https://github.com/baaivision/DIVA verfügbar sein.
English
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting
open-world representations across domains and modalities, has become a
foundation for a variety of vision and multimodal tasks. However, recent
studies reveal that CLIP has severe visual shortcomings, such as which can
hardly distinguish orientation, quantity, color, structure, etc. These visual
shortcomings also limit the perception capabilities of multimodal large
language models (MLLMs) built on CLIP. The main reason could be that the
image-text pairs used to train CLIP are inherently biased, due to the lack of
the distinctiveness of the text and the diversity of images. In this work, we
present a simple post-training approach for CLIP models, which largely
overcomes its visual shortcomings via a self-supervised diffusion process. We
introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP.
Specifically, DIVA leverages generative feedback from text-to-image diffusion
models to optimize CLIP representations, with only images (without
corresponding text). We demonstrate that DIVA improves CLIP's performance on
the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities
to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and
vision models on multimodal understanding and segmentation tasks. Extensive
evaluation on 29 image classification and retrieval benchmarks confirms that
our framework preserves CLIP's strong zero-shot capabilities. The code will be
available at https://github.com/baaivision/DIVA.Summary
AI-Generated Summary