CLIP uitbreiden met verbeterd visueel-linguïstisch redeneren

Samenvatting

Beeld-tekst contrastieve modellen zoals CLIP zijn nuttig voor een verscheidenheid aan downstream toepassingen, waaronder zero-shot classificatie, beeld-tekst retrieval en transfer learning. Deze contrastief getrainde visie-taalmodellen falen echter vaak bij compositionele visio-linguïstische taken zoals Winoground, met prestaties die gelijk zijn aan willekeurige kans. In ons artikel pakken we dit probleem aan en stellen we een sample-efficiënte, lichtgewicht methode genaamd SDS-CLIP voor om de compositionele visio-linguïstische redeneervaardigheden van CLIP te verbeteren. De kern van onze methode is het gebruik van differentieerbare beeldparameterisaties om CLIP te fine-tunen met een distillatiedoelstelling van grote tekst-naar-beeld generatieve modellen zoals Stable-Diffusion, die relatief goed zijn in visio-linguïstische redeneertaken. Op de uitdagende Winoground compositionele redeneerbenchmark verbetert onze methode de absolute visio-linguïstische prestaties van verschillende CLIP-modellen met tot 7%, terwijl op de ARO-dataset de visio-linguïstische prestaties met tot 3% verbeteren. Als een bijproduct van het introduceren van visio-linguïstisch redeneren in CLIP, vinden we ook dat de zero-shot prestaties marginaal verbeteren op een verscheidenheid aan downstream datasets. Onze methode benadrukt dat zorgvuldig ontworpen distillatiedoelstellingen van generatieve modellen kunnen worden benut om bestaande contrastieve beeld-tekstmodellen uit te breiden met verbeterde visio-linguïstische redeneervaardigheden.

English

Image-text contrastive models such as CLIP are useful for a variety of downstream applications including zero-shot classification, image-text retrieval and transfer learning. However, these contrastively trained vision-language models often fail on compositional visio-linguistic tasks such as Winoground with performance equivalent to random chance. In our paper, we address this issue and propose a sample-efficient light-weight method called SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities of CLIP. The core idea of our method is to use differentiable image parameterizations to fine-tune CLIP with a distillation objective from large text-to-image generative models such as Stable-Diffusion which are relatively good at visio-linguistic reasoning tasks. On the challenging Winoground compositional reasoning benchmark, our method improves the absolute visio-linguistic performance of different CLIP models by up to 7%, while on the ARO dataset, our method improves the visio-linguistic performance by upto 3%. As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find that the zero-shot performance improves marginally on a variety of downstream datasets. Our method reinforces that carefully designed distillation objectives from generative models can be leveraged to extend existing contrastive image-text models with improved visio-linguistic reasoning capabilities.

CLIP uitbreiden met verbeterd visueel-linguïstisch redeneren

Augmenting CLIP with Improved Visio-Linguistic Reasoning

Samenvatting

Support