Il Feedback di Diffusione Aiuta CLIP a Vedere Meglio
Diffusion Feedback Helps CLIP See Better
July 29, 2024
Autori: Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang
cs.AI
Abstract
Il Contrastive Language-Image Pre-training (CLIP), che eccelle nell'astrarre rappresentazioni del mondo aperto attraverso domini e modalità, è diventato una base per una varietà di task visivi e multimodali. Tuttavia, studi recenti rivelano che CLIP presenta gravi carenze visive, come la difficoltà nel distinguere orientamento, quantità, colore, struttura, ecc. Queste carenze visive limitano anche le capacità percettive dei modelli linguistici multimodali di grandi dimensioni (MLLMs) costruiti su CLIP. La ragione principale potrebbe risiedere nel fatto che le coppie immagine-testo utilizzate per addestrare CLIP sono intrinsecamente distorte, a causa della mancanza di distintività del testo e della diversità delle immagini. In questo lavoro, presentiamo un semplice approccio post-addestramento per i modelli CLIP, che supera in gran parte le sue carenze visive attraverso un processo di diffusione auto-supervisionato. Introduciamo DIVA, che utilizza il modello DIffusion come Assistente Visivo per CLIP. Nello specifico, DIVA sfrutta il feedback generativo dei modelli di diffusione testo-immagine per ottimizzare le rappresentazioni di CLIP, utilizzando solo immagini (senza testo corrispondente). Dimostriamo che DIVA migliora le prestazioni di CLIP sul benchmark MMVP-VLM, che valuta in larga misura le abilità visive di dettaglio (ad esempio, 3-7%), e potenzia le prestazioni di MLLMs e modelli visivi su task di comprensione multimodale e segmentazione. Una valutazione estensiva su 29 benchmark di classificazione e recupero di immagini conferma che il nostro framework preserva le forti capacità zero-shot di CLIP. Il codice sarà disponibile all'indirizzo https://github.com/baaivision/DIVA.
English
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting
open-world representations across domains and modalities, has become a
foundation for a variety of vision and multimodal tasks. However, recent
studies reveal that CLIP has severe visual shortcomings, such as which can
hardly distinguish orientation, quantity, color, structure, etc. These visual
shortcomings also limit the perception capabilities of multimodal large
language models (MLLMs) built on CLIP. The main reason could be that the
image-text pairs used to train CLIP are inherently biased, due to the lack of
the distinctiveness of the text and the diversity of images. In this work, we
present a simple post-training approach for CLIP models, which largely
overcomes its visual shortcomings via a self-supervised diffusion process. We
introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP.
Specifically, DIVA leverages generative feedback from text-to-image diffusion
models to optimize CLIP representations, with only images (without
corresponding text). We demonstrate that DIVA improves CLIP's performance on
the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities
to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and
vision models on multimodal understanding and segmentation tasks. Extensive
evaluation on 29 image classification and retrieval benchmarks confirms that
our framework preserves CLIP's strong zero-shot capabilities. The code will be
available at https://github.com/baaivision/DIVA.