Amélioration de CLIP par un raisonnement visio-linguistique renforcé
Augmenting CLIP with Improved Visio-Linguistic Reasoning
July 18, 2023
Auteurs: Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi
cs.AI
Résumé
Les modèles de contraste image-texte tels que CLIP sont utiles pour une variété d'applications en aval, notamment la classification zero-shot, la recherche image-texte et l'apprentissage par transfert. Cependant, ces modèles vision-langage entraînés par contraste échouent souvent sur des tâches compositionnelles visio-linguistiques comme Winoground, avec des performances équivalentes au hasard. Dans notre article, nous abordons ce problème et proposons une méthode légère et efficace en termes d'échantillons appelée SDS-CLIP pour améliorer les capacités de raisonnement visio-linguistique compositionnel de CLIP. L'idée centrale de notre méthode est d'utiliser des paramétrisations d'images différentiables pour affiner CLIP avec un objectif de distillation à partir de grands modèles génératifs texte-image tels que Stable-Diffusion, qui sont relativement performants dans les tâches de raisonnement visio-linguistique. Sur le benchmark de raisonnement compositionnel difficile de Winoground, notre méthode améliore la performance visio-linguistique absolue de différents modèles CLIP jusqu'à 7 %, tandis que sur le jeu de données ARO, notre méthode améliore la performance visio-linguistique jusqu'à 3 %. Comme sous-produit de l'introduction du raisonnement visio-linguistique dans CLIP, nous constatons également que la performance zero-shot s'améliore légèrement sur une variété de jeux de données en aval. Notre méthode renforce l'idée que des objectifs de distillation soigneusement conçus à partir de modèles génératifs peuvent être exploités pour étendre les modèles de contraste image-texte existants avec des capacités de raisonnement visio-linguistique améliorées.
English
Image-text contrastive models such as CLIP are useful for a variety of
downstream applications including zero-shot classification, image-text
retrieval and transfer learning. However, these contrastively trained
vision-language models often fail on compositional visio-linguistic tasks such
as Winoground with performance equivalent to random chance. In our paper, we
address this issue and propose a sample-efficient light-weight method called
SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities
of CLIP. The core idea of our method is to use differentiable image
parameterizations to fine-tune CLIP with a distillation objective from large
text-to-image generative models such as Stable-Diffusion which are relatively
good at visio-linguistic reasoning tasks. On the challenging Winoground
compositional reasoning benchmark, our method improves the absolute
visio-linguistic performance of different CLIP models by up to 7%, while on the
ARO dataset, our method improves the visio-linguistic performance by upto 3%.
As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find
that the zero-shot performance improves marginally on a variety of downstream
datasets. Our method reinforces that carefully designed distillation objectives
from generative models can be leveraged to extend existing contrastive
image-text models with improved visio-linguistic reasoning capabilities.