Le retour de diffusion améliore la vision de CLIP
Diffusion Feedback Helps CLIP See Better
July 29, 2024
Auteurs: Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang
cs.AI
Résumé
Le pré-entraînement contrastif langue-image (CLIP), qui excelle dans l'abstraction de représentations du monde ouvert à travers les domaines et les modalités, est devenu une base pour une variété de tâches visuelles et multimodales. Cependant, des études récentes révèlent que CLIP présente de graves lacunes visuelles, telles que la difficulté à distinguer l'orientation, la quantité, la couleur, la structure, etc. Ces lacunes visuelles limitent également les capacités de perception des modèles de langage multimodaux de grande taille (MLLMs) construits sur CLIP. La raison principale pourrait être que les paires image-texte utilisées pour entraîner CLIP sont intrinsèquement biaisées, en raison du manque de distinctivité du texte et de la diversité des images. Dans ce travail, nous présentons une approche simple de post-entraînement pour les modèles CLIP, qui surmonte largement ses lacunes visuelles via un processus de diffusion auto-supervisé. Nous introduisons DIVA, qui utilise le modèle de DIffusion comme Assistant Visuel pour CLIP. Plus précisément, DIVA exploite les retours génératifs des modèles de diffusion texte-image pour optimiser les représentations de CLIP, en utilisant uniquement des images (sans texte correspondant). Nous démontrons que DIVA améliore les performances de CLIP sur le benchmark MMVP-VLM, qui évalue de manière significative les capacités visuelles fines (par exemple, 3-7 %), et améliore les performances des MLLMs et des modèles visuels sur les tâches de compréhension multimodale et de segmentation. Une évaluation approfondie sur 29 benchmarks de classification et de recherche d'images confirme que notre framework préserve les solides capacités zero-shot de CLIP. Le code sera disponible à l'adresse https://github.com/baaivision/DIVA.
English
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting
open-world representations across domains and modalities, has become a
foundation for a variety of vision and multimodal tasks. However, recent
studies reveal that CLIP has severe visual shortcomings, such as which can
hardly distinguish orientation, quantity, color, structure, etc. These visual
shortcomings also limit the perception capabilities of multimodal large
language models (MLLMs) built on CLIP. The main reason could be that the
image-text pairs used to train CLIP are inherently biased, due to the lack of
the distinctiveness of the text and the diversity of images. In this work, we
present a simple post-training approach for CLIP models, which largely
overcomes its visual shortcomings via a self-supervised diffusion process. We
introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP.
Specifically, DIVA leverages generative feedback from text-to-image diffusion
models to optimize CLIP representations, with only images (without
corresponding text). We demonstrate that DIVA improves CLIP's performance on
the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities
to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and
vision models on multimodal understanding and segmentation tasks. Extensive
evaluation on 29 image classification and retrieval benchmarks confirms that
our framework preserves CLIP's strong zero-shot capabilities. The code will be
available at https://github.com/baaivision/DIVA.Summary
AI-Generated Summary