CLIP uitbreiden met verbeterd visueel-linguïstisch redeneren
Augmenting CLIP with Improved Visio-Linguistic Reasoning
July 18, 2023
Auteurs: Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi
cs.AI
Samenvatting
Beeld-tekst contrastieve modellen zoals CLIP zijn nuttig voor een verscheidenheid aan downstream toepassingen, waaronder zero-shot classificatie, beeld-tekst retrieval en transfer learning. Deze contrastief getrainde visie-taalmodellen falen echter vaak bij compositionele visio-linguïstische taken zoals Winoground, met prestaties die gelijk zijn aan willekeurige kans. In ons artikel pakken we dit probleem aan en stellen we een sample-efficiënte, lichtgewicht methode genaamd SDS-CLIP voor om de compositionele visio-linguïstische redeneervaardigheden van CLIP te verbeteren. De kern van onze methode is het gebruik van differentieerbare beeldparameterisaties om CLIP te fine-tunen met een distillatiedoelstelling van grote tekst-naar-beeld generatieve modellen zoals Stable-Diffusion, die relatief goed zijn in visio-linguïstische redeneertaken. Op de uitdagende Winoground compositionele redeneerbenchmark verbetert onze methode de absolute visio-linguïstische prestaties van verschillende CLIP-modellen met tot 7%, terwijl op de ARO-dataset de visio-linguïstische prestaties met tot 3% verbeteren. Als een bijproduct van het introduceren van visio-linguïstisch redeneren in CLIP, vinden we ook dat de zero-shot prestaties marginaal verbeteren op een verscheidenheid aan downstream datasets. Onze methode benadrukt dat zorgvuldig ontworpen distillatiedoelstellingen van generatieve modellen kunnen worden benut om bestaande contrastieve beeld-tekstmodellen uit te breiden met verbeterde visio-linguïstische redeneervaardigheden.
English
Image-text contrastive models such as CLIP are useful for a variety of
downstream applications including zero-shot classification, image-text
retrieval and transfer learning. However, these contrastively trained
vision-language models often fail on compositional visio-linguistic tasks such
as Winoground with performance equivalent to random chance. In our paper, we
address this issue and propose a sample-efficient light-weight method called
SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities
of CLIP. The core idea of our method is to use differentiable image
parameterizations to fine-tune CLIP with a distillation objective from large
text-to-image generative models such as Stable-Diffusion which are relatively
good at visio-linguistic reasoning tasks. On the challenging Winoground
compositional reasoning benchmark, our method improves the absolute
visio-linguistic performance of different CLIP models by up to 7%, while on the
ARO dataset, our method improves the visio-linguistic performance by upto 3%.
As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find
that the zero-shot performance improves marginally on a variety of downstream
datasets. Our method reinforces that carefully designed distillation objectives
from generative models can be leveraged to extend existing contrastive
image-text models with improved visio-linguistic reasoning capabilities.