O Feedback de Difusão Ajuda o CLIP a Enxergar Melhor
Diffusion Feedback Helps CLIP See Better
July 29, 2024
Autores: Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang
cs.AI
Resumo
O Preparo Prévio de Linguagem-Imagem Contrastiva (CLIP), que se destaca na abstração de representações de mundo aberto entre domínios e modalidades, tornou-se uma base para uma variedade de tarefas de visão e multimodais. No entanto, estudos recentes revelam que o CLIP possui graves deficiências visuais, como dificuldade em distinguir orientação, quantidade, cor, estrutura, etc. Essas deficiências visuais também limitam as capacidades de percepção de grandes modelos de linguagem multimodais (MLLMs) construídos com base no CLIP. A principal razão pode ser que os pares de imagem-texto usados para treinar o CLIP são inherentemente tendenciosos, devido à falta de distinção do texto e à diversidade de imagens. Neste trabalho, apresentamos uma abordagem simples de pós-treinamento para modelos CLIP, que supera em grande parte suas deficiências visuais por meio de um processo de difusão auto-supervisionado. Introduzimos o DIVA, que utiliza o modelo de DIfusão como Assistente Visual para o CLIP. Especificamente, o DIVA aproveita o feedback generativo de modelos de difusão de texto para imagem para otimizar as representações do CLIP, apenas com imagens (sem texto correspondente). Demonstramos que o DIVA melhora o desempenho do CLIP no desafiador benchmark MMVP-VLM, que avalia as habilidades visuais detalhadas em grande medida (por exemplo, 3-7%), e aprimora o desempenho de MLLMs e modelos de visão em tarefas de compreensão e segmentação multimodais. Uma avaliação extensiva em 29 benchmarks de classificação e recuperação de imagens confirma que nosso framework preserva as fortes capacidades de zero-shot do CLIP. O código estará disponível em https://github.com/baaivision/DIVA.
English
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting
open-world representations across domains and modalities, has become a
foundation for a variety of vision and multimodal tasks. However, recent
studies reveal that CLIP has severe visual shortcomings, such as which can
hardly distinguish orientation, quantity, color, structure, etc. These visual
shortcomings also limit the perception capabilities of multimodal large
language models (MLLMs) built on CLIP. The main reason could be that the
image-text pairs used to train CLIP are inherently biased, due to the lack of
the distinctiveness of the text and the diversity of images. In this work, we
present a simple post-training approach for CLIP models, which largely
overcomes its visual shortcomings via a self-supervised diffusion process. We
introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP.
Specifically, DIVA leverages generative feedback from text-to-image diffusion
models to optimize CLIP representations, with only images (without
corresponding text). We demonstrate that DIVA improves CLIP's performance on
the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities
to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and
vision models on multimodal understanding and segmentation tasks. Extensive
evaluation on 29 image classification and retrieval benchmarks confirms that
our framework preserves CLIP's strong zero-shot capabilities. The code will be
available at https://github.com/baaivision/DIVA.Summary
AI-Generated Summary