Улучшение CLIP за счет расширенных возможностей визуально-лингвистического анализа
Augmenting CLIP with Improved Visio-Linguistic Reasoning
July 18, 2023
Авторы: Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi
cs.AI
Аннотация
Контрастные модели, работающие с изображениями и текстом, такие как CLIP, полезны для различных прикладных задач, включая классификацию с нулевым обучением, поиск по изображениям и тексту, а также трансферное обучение. Однако эти модели, обученные контрастным методом, часто не справляются с композиционными визуально-лингвистическими задачами, такими как Winoground, показывая результаты на уровне случайного угадывания. В нашей работе мы решаем эту проблему и предлагаем эффективный по выборке и легковесный метод под названием SDS-CLIP, который улучшает способности CLIP к композиционному визуально-лингвистическому рассуждению. Основная идея нашего метода заключается в использовании дифференцируемых параметризаций изображений для тонкой настройки CLIP с целью дистилляции от крупных генеративных моделей, преобразующих текст в изображения, таких как Stable-Diffusion, которые относительно хорошо справляются с визуально-лингвистическими задачами. На сложном бенчмарке композиционного рассуждения Winoground наш метод улучшает абсолютную визуально-лингвистическую производительность различных моделей CLIP до 7%, а на наборе данных ARO — до 3%. В качестве побочного эффекта внедрения визуально-лингвистического рассуждения в CLIP мы также обнаруживаем, что производительность с нулевым обучением незначительно улучшается на различных прикладных наборах данных. Наш метод подтверждает, что тщательно разработанные цели дистилляции от генеративных моделей могут быть использованы для расширения существующих контрастных моделей, работающих с изображениями и текстом, с улучшенными возможностями визуально-лингвистического рассуждения.
English
Image-text contrastive models such as CLIP are useful for a variety of
downstream applications including zero-shot classification, image-text
retrieval and transfer learning. However, these contrastively trained
vision-language models often fail on compositional visio-linguistic tasks such
as Winoground with performance equivalent to random chance. In our paper, we
address this issue and propose a sample-efficient light-weight method called
SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities
of CLIP. The core idea of our method is to use differentiable image
parameterizations to fine-tune CLIP with a distillation objective from large
text-to-image generative models such as Stable-Diffusion which are relatively
good at visio-linguistic reasoning tasks. On the challenging Winoground
compositional reasoning benchmark, our method improves the absolute
visio-linguistic performance of different CLIP models by up to 7%, while on the
ARO dataset, our method improves the visio-linguistic performance by upto 3%.
As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find
that the zero-shot performance improves marginally on a variety of downstream
datasets. Our method reinforces that carefully designed distillation objectives
from generative models can be leveraged to extend existing contrastive
image-text models with improved visio-linguistic reasoning capabilities.