Potenziamento di CLIP con un Miglior Ragionamento Visivo-Linguistico
Augmenting CLIP with Improved Visio-Linguistic Reasoning
July 18, 2023
Autori: Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi
cs.AI
Abstract
I modelli contrastivi immagine-testo come CLIP sono utili per una varietà di applicazioni downstream, tra cui la classificazione zero-shot, il recupero immagine-testo e il transfer learning. Tuttavia, questi modelli visione-linguaggio addestrati in modo contrastivo spesso falliscono in compiti visio-linguistici composizionali come Winoground, con prestazioni equivalenti al caso. Nel nostro articolo, affrontiamo questo problema e proponiamo un metodo leggero ed efficiente in termini di campioni chiamato SDS-CLIP per migliorare le capacità di ragionamento visio-linguistico composizionale di CLIP. L'idea centrale del nostro metodo è utilizzare parametrizzazioni differenziabili delle immagini per affinare CLIP con un obiettivo di distillazione da grandi modelli generativi testo-immagine come Stable-Diffusion, che sono relativamente bravi nei compiti di ragionamento visio-linguistico. Sul benchmark di ragionamento composizionale Winoground, il nostro metodo migliora le prestazioni visio-linguistiche assolute di diversi modelli CLIP fino al 7%, mentre sul dataset ARO, il nostro metodo migliora le prestazioni visio-linguistiche fino al 3%. Come sottoprodotto dell'induzione del ragionamento visio-linguistico in CLIP, troviamo anche che le prestazioni zero-shot migliorano leggermente su una varietà di dataset downstream. Il nostro metodo rafforza l'idea che obiettivi di distillazione accuratamente progettati da modelli generativi possano essere sfruttati per estendere i modelli contrastivi immagine-testo esistenti con capacità di ragionamento visio-linguistico migliorate.
English
Image-text contrastive models such as CLIP are useful for a variety of
downstream applications including zero-shot classification, image-text
retrieval and transfer learning. However, these contrastively trained
vision-language models often fail on compositional visio-linguistic tasks such
as Winoground with performance equivalent to random chance. In our paper, we
address this issue and propose a sample-efficient light-weight method called
SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities
of CLIP. The core idea of our method is to use differentiable image
parameterizations to fine-tune CLIP with a distillation objective from large
text-to-image generative models such as Stable-Diffusion which are relatively
good at visio-linguistic reasoning tasks. On the challenging Winoground
compositional reasoning benchmark, our method improves the absolute
visio-linguistic performance of different CLIP models by up to 7%, while on the
ARO dataset, our method improves the visio-linguistic performance by upto 3%.
As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find
that the zero-shot performance improves marginally on a variety of downstream
datasets. Our method reinforces that carefully designed distillation objectives
from generative models can be leveraged to extend existing contrastive
image-text models with improved visio-linguistic reasoning capabilities.