Обратная связь диффузии помогает CLIP лучше видеть.

Аннотация

Контрастное предварительное обучение язык-изображение (CLIP), которое превосходит в абстрагировании представлений открытого мира в различных областях и модальностях, стало основой для множества задач зрения и мультимодальности. Однако недавние исследования показывают, что у CLIP есть серьезные визуальные недостатки, такие как затруднения в различении ориентации, количества, цвета, структуры и т. д. Эти визуальные недостатки также ограничивают способности восприятия мультимодальных больших языковых моделей (MLLM), построенных на CLIP. Основной причиной может быть то, что используемые для обучения CLIP пары изображение-текст имеют врожденные предвзятости из-за отсутствия отличительности текста и разнообразия изображений. В данной работе мы представляем простой подход к пост-обучению моделей CLIP, который в значительной степени преодолевает ее визуальные недостатки с помощью процесса самообучения диффузии. Мы представляем DIVA, который использует модель диффузии как визуального помощника для CLIP. Конкретно, DIVA использует генеративную обратную связь от моделей диффузии текста к изображению для оптимизации представлений CLIP, используя только изображения (без соответствующего текста). Мы демонстрируем, что DIVA улучшает производительность CLIP на сложном бенчмарке MMVP-VLM, который оценивает тонкие визуальные способности в значительной степени (например, на 3-7%) и улучшает производительность MLLM и моделей зрения на задачах мультимодального понимания и сегментации. Обширная оценка на 29 бенчмарках классификации и поиска изображений подтверждает, что наша структура сохраняет сильные возможности CLIP в нулевом режиме. Код будет доступен по адресу https://github.com/baaivision/DIVA.

English

Contrastive Language-Image Pre-training (CLIP), which excels at abstracting open-world representations across domains and modalities, has become a foundation for a variety of vision and multimodal tasks. However, recent studies reveal that CLIP has severe visual shortcomings, such as which can hardly distinguish orientation, quantity, color, structure, etc. These visual shortcomings also limit the perception capabilities of multimodal large language models (MLLMs) built on CLIP. The main reason could be that the image-text pairs used to train CLIP are inherently biased, due to the lack of the distinctiveness of the text and the diversity of images. In this work, we present a simple post-training approach for CLIP models, which largely overcomes its visual shortcomings via a self-supervised diffusion process. We introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP. Specifically, DIVA leverages generative feedback from text-to-image diffusion models to optimize CLIP representations, with only images (without corresponding text). We demonstrate that DIVA improves CLIP's performance on the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and vision models on multimodal understanding and segmentation tasks. Extensive evaluation on 29 image classification and retrieval benchmarks confirms that our framework preserves CLIP's strong zero-shot capabilities. The code will be available at https://github.com/baaivision/DIVA.

Обратная связь диффузии помогает CLIP лучше видеть.

Diffusion Feedback Helps CLIP See Better

Аннотация

Support