Erweiterung von CLIP durch verbessertes visuell-linguistisches Denken
Augmenting CLIP with Improved Visio-Linguistic Reasoning
July 18, 2023
Autoren: Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi
cs.AI
Zusammenfassung
Bild-Text-Kontrastmodelle wie CLIP sind nützlich für eine Vielzahl von nachgelagerten Anwendungen, einschließlich Zero-Shot-Klassifikation, Bild-Text-Retrieval und Transferlernen. Diese kontrastiv trainierten Vision-Sprache-Modelle scheitern jedoch oft an kompositionellen visio-linguistischen Aufgaben wie Winoground, wobei ihre Leistung dem Zufall entspricht. In unserem Artikel gehen wir auf dieses Problem ein und schlagen eine ressourceneffiziente, leichtgewichtige Methode namens SDS-CLIP vor, um die kompositionellen visio-linguistischen Fähigkeiten von CLIP zu verbessern. Der Kern unserer Methode besteht darin, differenzierbare Bildparametrisierungen zu verwenden, um CLIP mit einem Distillationsziel aus großen Text-zu-Bild-Generativmodellen wie Stable-Diffusion zu feinabstimmen, die relativ gut in visio-linguistischen Aufgaben sind. Auf der anspruchsvollen Winoground-Benchmark für kompositionelles Denken verbessert unsere Methode die absolute visio-linguistische Leistung verschiedener CLIP-Modelle um bis zu 7 %, während auf dem ARO-Datensatz die visio-linguistische Leistung um bis zu 3 % gesteigert wird. Als Nebenprodukt der Einführung von visio-linguistischem Denken in CLIP stellen wir fest, dass die Zero-Shot-Leistung auf einer Vielzahl von nachgelagerten Datensätzen leicht verbessert wird. Unsere Methode unterstreicht, dass sorgfältig gestaltete Distillationsziele aus Generativmodellen genutzt werden können, um bestehende kontrastive Bild-Text-Modelle mit verbesserten visio-linguistischen Fähigkeiten zu erweitern.
English
Image-text contrastive models such as CLIP are useful for a variety of
downstream applications including zero-shot classification, image-text
retrieval and transfer learning. However, these contrastively trained
vision-language models often fail on compositional visio-linguistic tasks such
as Winoground with performance equivalent to random chance. In our paper, we
address this issue and propose a sample-efficient light-weight method called
SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities
of CLIP. The core idea of our method is to use differentiable image
parameterizations to fine-tune CLIP with a distillation objective from large
text-to-image generative models such as Stable-Diffusion which are relatively
good at visio-linguistic reasoning tasks. On the challenging Winoground
compositional reasoning benchmark, our method improves the absolute
visio-linguistic performance of different CLIP models by up to 7%, while on the
ARO dataset, our method improves the visio-linguistic performance by upto 3%.
As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find
that the zero-shot performance improves marginally on a variety of downstream
datasets. Our method reinforces that carefully designed distillation objectives
from generative models can be leveraged to extend existing contrastive
image-text models with improved visio-linguistic reasoning capabilities.