Diffusie-feedback helpt CLIP beter te zien
Diffusion Feedback Helps CLIP See Better
July 29, 2024
Auteurs: Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang
cs.AI
Samenvatting
Contrastive Language-Image Pre-training (CLIP), dat uitblinkt in het abstraheren van open-wereldrepresentaties over domeinen en modaliteiten heen, is een fundament geworden voor een verscheidenheid aan visuele en multimodale taken. Recente studies tonen echter aan dat CLIP ernstige visuele tekortkomingen heeft, zoals moeite met het onderscheiden van oriëntatie, hoeveelheid, kleur, structuur, enz. Deze visuele tekortkomingen beperken ook de perceptiecapaciteiten van multimodale grote taalmodellen (MLLMs) die op CLIP zijn gebouwd. De belangrijkste reden hiervoor zou kunnen zijn dat de beeld-tekstparen die gebruikt worden om CLIP te trainen inherent bevooroordeeld zijn, vanwege het gebrek aan onderscheidend vermogen van de tekst en de diversiteit van de beelden. In dit werk presenteren we een eenvoudige post-trainingsaanpak voor CLIP-modellen, die de visuele tekortkomingen grotendeels overwint via een zelfsupervised diffusieproces. We introduceren DIVA, dat het DIffusiemodel gebruikt als een Visuele Assistent voor CLIP. Specifiek maakt DIVA gebruik van generatieve feedback van tekst-naar-beeld diffusiemodellen om CLIP-representaties te optimaliseren, met alleen beelden (zonder bijbehorende tekst). We tonen aan dat DIVA de prestaties van CLIP op de uitdagende MMVP-VLM-benchmark, die fijnmazige visuele vaardigheden in grote mate beoordeelt, aanzienlijk verbetert (bijv. 3-7%), en de prestaties van MLLMs en visuele modellen op multimodale begrips- en segmentatietaken versterkt. Uitgebreide evaluatie op 29 beeldclassificatie- en retrievalsbenchmarks bevestigt dat ons framework de sterke zero-shot-capaciteiten van CLIP behoudt. De code zal beschikbaar zijn op https://github.com/baaivision/DIVA.
English
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting
open-world representations across domains and modalities, has become a
foundation for a variety of vision and multimodal tasks. However, recent
studies reveal that CLIP has severe visual shortcomings, such as which can
hardly distinguish orientation, quantity, color, structure, etc. These visual
shortcomings also limit the perception capabilities of multimodal large
language models (MLLMs) built on CLIP. The main reason could be that the
image-text pairs used to train CLIP are inherently biased, due to the lack of
the distinctiveness of the text and the diversity of images. In this work, we
present a simple post-training approach for CLIP models, which largely
overcomes its visual shortcomings via a self-supervised diffusion process. We
introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP.
Specifically, DIVA leverages generative feedback from text-to-image diffusion
models to optimize CLIP representations, with only images (without
corresponding text). We demonstrate that DIVA improves CLIP's performance on
the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities
to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and
vision models on multimodal understanding and segmentation tasks. Extensive
evaluation on 29 image classification and retrieval benchmarks confirms that
our framework preserves CLIP's strong zero-shot capabilities. The code will be
available at https://github.com/baaivision/DIVA.