O Feedback de Difusão Ajuda o CLIP a Enxergar Melhor

Resumo

O Preparo Prévio de Linguagem-Imagem Contrastiva (CLIP), que se destaca na abstração de representações de mundo aberto entre domínios e modalidades, tornou-se uma base para uma variedade de tarefas de visão e multimodais. No entanto, estudos recentes revelam que o CLIP possui graves deficiências visuais, como dificuldade em distinguir orientação, quantidade, cor, estrutura, etc. Essas deficiências visuais também limitam as capacidades de percepção de grandes modelos de linguagem multimodais (MLLMs) construídos com base no CLIP. A principal razão pode ser que os pares de imagem-texto usados para treinar o CLIP são inherentemente tendenciosos, devido à falta de distinção do texto e à diversidade de imagens. Neste trabalho, apresentamos uma abordagem simples de pós-treinamento para modelos CLIP, que supera em grande parte suas deficiências visuais por meio de um processo de difusão auto-supervisionado. Introduzimos o DIVA, que utiliza o modelo de DIfusão como Assistente Visual para o CLIP. Especificamente, o DIVA aproveita o feedback generativo de modelos de difusão de texto para imagem para otimizar as representações do CLIP, apenas com imagens (sem texto correspondente). Demonstramos que o DIVA melhora o desempenho do CLIP no desafiador benchmark MMVP-VLM, que avalia as habilidades visuais detalhadas em grande medida (por exemplo, 3-7%), e aprimora o desempenho de MLLMs e modelos de visão em tarefas de compreensão e segmentação multimodais. Uma avaliação extensiva em 29 benchmarks de classificação e recuperação de imagens confirma que nosso framework preserva as fortes capacidades de zero-shot do CLIP. O código estará disponível em https://github.com/baaivision/DIVA.

English

Contrastive Language-Image Pre-training (CLIP), which excels at abstracting open-world representations across domains and modalities, has become a foundation for a variety of vision and multimodal tasks. However, recent studies reveal that CLIP has severe visual shortcomings, such as which can hardly distinguish orientation, quantity, color, structure, etc. These visual shortcomings also limit the perception capabilities of multimodal large language models (MLLMs) built on CLIP. The main reason could be that the image-text pairs used to train CLIP are inherently biased, due to the lack of the distinctiveness of the text and the diversity of images. In this work, we present a simple post-training approach for CLIP models, which largely overcomes its visual shortcomings via a self-supervised diffusion process. We introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP. Specifically, DIVA leverages generative feedback from text-to-image diffusion models to optimize CLIP representations, with only images (without corresponding text). We demonstrate that DIVA improves CLIP's performance on the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and vision models on multimodal understanding and segmentation tasks. Extensive evaluation on 29 image classification and retrieval benchmarks confirms that our framework preserves CLIP's strong zero-shot capabilities. The code will be available at https://github.com/baaivision/DIVA.

O Feedback de Difusão Ajuda o CLIP a Enxergar Melhor

Diffusion Feedback Helps CLIP See Better

Resumo

Summary

Support

Support