La retroalimentación por difusión ayuda a CLIP a ver mejor.
Diffusion Feedback Helps CLIP See Better
July 29, 2024
Autores: Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang
cs.AI
Resumen
El Pre-entrenamiento Contrastivo de Lenguaje-Imagen (CLIP), que sobresale en la abstracción de representaciones de mundo abierto a través de dominios y modalidades, se ha convertido en un pilar para una variedad de tareas de visión y multimodales. Sin embargo, estudios recientes revelan que CLIP tiene graves deficiencias visuales, como la dificultad para distinguir orientación, cantidad, color, estructura, etc. Estas deficiencias visuales también limitan las capacidades de percepción de los grandes modelos de lenguaje multimodales (MLLMs) construidos sobre CLIP. La razón principal podría ser que los pares de imagen-texto utilizados para entrenar CLIP están inherentemente sesgados, debido a la falta de distinción del texto y la diversidad de imágenes. En este trabajo, presentamos un enfoque simple de post-entrenamiento para los modelos CLIP, que supera en gran medida sus deficiencias visuales a través de un proceso de difusión auto-supervisado. Introducimos DIVA, que utiliza el modelo de DIfusión como Asistente Visual para CLIP. Específicamente, DIVA aprovecha la retroalimentación generativa de modelos de difusión de texto a imagen para optimizar las representaciones de CLIP, solo con imágenes (sin texto correspondiente). Demostramos que DIVA mejora el rendimiento de CLIP en el desafiante benchmark MMVP-VLM que evalúa las habilidades visuales detalladas en gran medida (por ejemplo, 3-7%), y mejora el rendimiento de MLLMs y modelos de visión en tareas de comprensión y segmentación multimodales. Una extensa evaluación en 29 benchmarks de clasificación y recuperación de imágenes confirma que nuestro marco preserva las sólidas capacidades de cero-shot de CLIP. El código estará disponible en https://github.com/baaivision/DIVA.
English
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting
open-world representations across domains and modalities, has become a
foundation for a variety of vision and multimodal tasks. However, recent
studies reveal that CLIP has severe visual shortcomings, such as which can
hardly distinguish orientation, quantity, color, structure, etc. These visual
shortcomings also limit the perception capabilities of multimodal large
language models (MLLMs) built on CLIP. The main reason could be that the
image-text pairs used to train CLIP are inherently biased, due to the lack of
the distinctiveness of the text and the diversity of images. In this work, we
present a simple post-training approach for CLIP models, which largely
overcomes its visual shortcomings via a self-supervised diffusion process. We
introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP.
Specifically, DIVA leverages generative feedback from text-to-image diffusion
models to optimize CLIP representations, with only images (without
corresponding text). We demonstrate that DIVA improves CLIP's performance on
the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities
to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and
vision models on multimodal understanding and segmentation tasks. Extensive
evaluation on 29 image classification and retrieval benchmarks confirms that
our framework preserves CLIP's strong zero-shot capabilities. The code will be
available at https://github.com/baaivision/DIVA.Summary
AI-Generated Summary