Aprimorando o CLIP com Raciocínio Visio-Linguístico Melhorado

Resumo

Modelos de contraste imagem-texto, como o CLIP, são úteis para uma variedade de aplicações subsequentes, incluindo classificação zero-shot, recuperação de imagem-texto e transferência de aprendizado. No entanto, esses modelos de visão e linguagem treinados de forma contrastiva frequentemente falham em tarefas visio-linguísticas composicionais, como o Winoground, com desempenho equivalente ao acaso aleatório. Em nosso artigo, abordamos essa questão e propomos um método leve e eficiente em termos de amostras, chamado SDS-CLIP, para melhorar as capacidades de raciocínio visio-linguístico composicional do CLIP. A ideia central do nosso método é usar parametrizações de imagem diferenciáveis para ajustar o CLIP com um objetivo de destilação a partir de grandes modelos generativos de texto para imagem, como o Stable-Diffusion, que são relativamente bons em tarefas de raciocínio visio-linguístico. No desafiador benchmark de raciocínio composicional Winoground, nosso método melhora o desempenho visio-linguístico absoluto de diferentes modelos CLIP em até 7%, enquanto no conjunto de dados ARO, nosso método melhora o desempenho visio-linguístico em até 3%. Como um subproduto da indução de raciocínio visio-linguístico no CLIP, também observamos que o desempenho zero-shot melhora marginalmente em uma variedade de conjuntos de dados subsequentes. Nosso método reforça que objetivos de destilação cuidadosamente projetados a partir de modelos generativos podem ser aproveitados para estender os modelos de contraste imagem-texto existentes com capacidades aprimoradas de raciocínio visio-linguístico.

English

Image-text contrastive models such as CLIP are useful for a variety of downstream applications including zero-shot classification, image-text retrieval and transfer learning. However, these contrastively trained vision-language models often fail on compositional visio-linguistic tasks such as Winoground with performance equivalent to random chance. In our paper, we address this issue and propose a sample-efficient light-weight method called SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities of CLIP. The core idea of our method is to use differentiable image parameterizations to fine-tune CLIP with a distillation objective from large text-to-image generative models such as Stable-Diffusion which are relatively good at visio-linguistic reasoning tasks. On the challenging Winoground compositional reasoning benchmark, our method improves the absolute visio-linguistic performance of different CLIP models by up to 7%, while on the ARO dataset, our method improves the visio-linguistic performance by upto 3%. As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find that the zero-shot performance improves marginally on a variety of downstream datasets. Our method reinforces that carefully designed distillation objectives from generative models can be leveraged to extend existing contrastive image-text models with improved visio-linguistic reasoning capabilities.

Aprimorando o CLIP com Raciocínio Visio-Linguístico Melhorado

Augmenting CLIP with Improved Visio-Linguistic Reasoning

Resumo

Support