VisualGPTScore: Raciocínio Visio-Linguístico com Pontuações de Pré-Treinamento Generativo Multimodal

Resumo

Modelos visão-linguagem (VLMs) pré-treinados de forma discriminativa com perdas de correspondência contraste entre imagem e texto, como P(correspondência|texto, imagem), têm sido criticados por carecer de compreensão composicional. Isso significa que eles podem gerar pontuações semelhantes mesmo que a legenda original seja reorganizada em uma afirmação semântica diferente. Para abordar essa questão, propomos utilizar o {bf P}onto de {bf P}re-{bf T}reinamento {bf G}enerativo {bf V}isual ({bf VisualGPTScore}) de P(texto|imagem), uma pontuação generativa multimodal que captura a probabilidade de uma legenda de texto condicionada a uma imagem usando um modelo de linguagem condicionado por imagem. Contrariamente à crença de que VLMs são meros modelos de saco de palavras, nosso VisualGPTScore pronto para uso demonstra desempenho de alto nível em benchmarks recentemente propostos de recuperação imagem-texto, como ARO e Crepe, que avaliam raciocínio composicional. Além disso, fatoramos o VisualGPTScore em um produto da marginal P(texto) e da Informação Mútua Pontual (PMI). Isso ajuda a (a) diagnosticar conjuntos de dados com forte viés linguístico e (b) corrigir viés em outros benchmarks como Winoground usando uma estrutura teórica da informação. O VisualGPTScore fornece insights valiosos e serve como uma linha de base robusta para futuras avaliações de composicionalidade visio-linguística.

English

Vision-language models (VLMs) discriminatively pre-trained with contrastive image-text matching losses such as P(match|text, image) have been criticized for lacking compositional understanding. This means they might output similar scores even if the original caption is rearranged into a different semantic statement. To address this, we propose to use the {bf V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf VisualGPTScore}) of P(text|image), a multimodal generative score that captures the likelihood of a text caption conditioned on an image using an image-conditioned language model. Contrary to the belief that VLMs are mere bag-of-words models, our off-the-shelf VisualGPTScore demonstrates top-tier performance on recently proposed image-text retrieval benchmarks like ARO and Crepe that assess compositional reasoning. Furthermore, we factorize VisualGPTScore into a product of the marginal P(text) and the Pointwise Mutual Information (PMI). This helps to (a) diagnose datasets with strong language bias, and (b) debias results on other benchmarks like Winoground using an information-theoretic framework. VisualGPTScore provides valuable insights and serves as a strong baseline for future evaluation of visio-linguistic compositionality.

VisualGPTScore: Raciocínio Visio-Linguístico com Pontuações de Pré-Treinamento Generativo Multimodal

VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores

Resumo

Support