Aumentando CLIP con un Razonamiento Visio-Lingüístico Mejorado
Augmenting CLIP with Improved Visio-Linguistic Reasoning
July 18, 2023
Autores: Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi
cs.AI
Resumen
Los modelos de contraste imagen-texto como CLIP son útiles para una variedad de aplicaciones posteriores, incluyendo clasificación zero-shot, recuperación de imágenes-texto y transferencia de aprendizaje. Sin embargo, estos modelos de visión-lenguaje entrenados de manera contrastiva a menudo fallan en tareas composicionales visio-lingüísticas como Winoground, con un rendimiento equivalente al azar. En nuestro artículo, abordamos este problema y proponemos un método ligero y eficiente en muestras llamado SDS-CLIP para mejorar las capacidades de razonamiento visio-lingüístico composicional de CLIP. La idea central de nuestro método es utilizar parametrizaciones de imágenes diferenciables para ajustar CLIP con un objetivo de destilación a partir de modelos generativos grandes de texto a imagen como Stable-Diffusion, que son relativamente buenos en tareas de razonamiento visio-lingüístico. En el desafiante benchmark de razonamiento composicional Winoground, nuestro método mejora el rendimiento visio-lingüístico absoluto de diferentes modelos CLIP hasta en un 7%, mientras que en el conjunto de datos ARO, nuestro método mejora el rendimiento visio-lingüístico hasta en un 3%. Como subproducto de inducir razonamiento visio-lingüístico en CLIP, también encontramos que el rendimiento zero-shot mejora marginalmente en una variedad de conjuntos de datos posteriores. Nuestro método refuerza que los objetivos de destilación cuidadosamente diseñados a partir de modelos generativos pueden aprovecharse para extender los modelos de contraste imagen-texto existentes con capacidades mejoradas de razonamiento visio-lingüístico.
English
Image-text contrastive models such as CLIP are useful for a variety of
downstream applications including zero-shot classification, image-text
retrieval and transfer learning. However, these contrastively trained
vision-language models often fail on compositional visio-linguistic tasks such
as Winoground with performance equivalent to random chance. In our paper, we
address this issue and propose a sample-efficient light-weight method called
SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities
of CLIP. The core idea of our method is to use differentiable image
parameterizations to fine-tune CLIP with a distillation objective from large
text-to-image generative models such as Stable-Diffusion which are relatively
good at visio-linguistic reasoning tasks. On the challenging Winoground
compositional reasoning benchmark, our method improves the absolute
visio-linguistic performance of different CLIP models by up to 7%, while on the
ARO dataset, our method improves the visio-linguistic performance by upto 3%.
As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find
that the zero-shot performance improves marginally on a variety of downstream
datasets. Our method reinforces that carefully designed distillation objectives
from generative models can be leveraged to extend existing contrastive
image-text models with improved visio-linguistic reasoning capabilities.