VisualGPTScore : Raisonnement Visio-Linguistique avec Scores de Pré-Entraînement Générique Multimodal

Résumé

Les modèles vision-langage (VLMs) pré-entraînés de manière discriminative avec des fonctions de perte contrastives d'appariement image-texte telles que P(match|texte, image) ont été critiqués pour leur manque de compréhension compositionnelle. Cela signifie qu'ils peuvent produire des scores similaires même si la légende originale est réorganisée en une déclaration sémantique différente. Pour remédier à cela, nous proposons d'utiliser le {bf S}core de {bf P}re-{bf E}ntraînement {bf G}énératif {bf V}isuel ({bf VisualGPTScore}) de P(texte|image), un score génératif multimodal qui capture la probabilité d'une légende textuelle conditionnée à une image en utilisant un modèle de langage conditionné par l'image. Contrairement à l'idée que les VLMs sont de simples modèles de sacs de mots, notre VisualGPTScore prêt à l'emploi démontre des performances de premier plan sur des benchmarks récemment proposés pour la recherche d'images-textes comme ARO et Crepe, qui évaluent le raisonnement compositionnel. De plus, nous factorisons VisualGPTScore en un produit de la marginale P(texte) et de l'Information Mutuelle Ponctuelle (PMI). Cela permet de (a) diagnostiquer les ensembles de données présentant un fort biais linguistique, et (b) de débiaiser les résultats sur d'autres benchmarks comme Winoground en utilisant un cadre information-théorique. VisualGPTScore fournit des insights précieux et sert de référence solide pour l'évaluation future de la compositionnalité visio-linguistique.

English

Vision-language models (VLMs) discriminatively pre-trained with contrastive image-text matching losses such as P(match|text, image) have been criticized for lacking compositional understanding. This means they might output similar scores even if the original caption is rearranged into a different semantic statement. To address this, we propose to use the {bf V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf VisualGPTScore}) of P(text|image), a multimodal generative score that captures the likelihood of a text caption conditioned on an image using an image-conditioned language model. Contrary to the belief that VLMs are mere bag-of-words models, our off-the-shelf VisualGPTScore demonstrates top-tier performance on recently proposed image-text retrieval benchmarks like ARO and Crepe that assess compositional reasoning. Furthermore, we factorize VisualGPTScore into a product of the marginal P(text) and the Pointwise Mutual Information (PMI). This helps to (a) diagnose datasets with strong language bias, and (b) debias results on other benchmarks like Winoground using an information-theoretic framework. VisualGPTScore provides valuable insights and serves as a strong baseline for future evaluation of visio-linguistic compositionality.

VisualGPTScore : Raisonnement Visio-Linguistique avec Scores de Pré-Entraînement Générique Multimodal

VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores

Résumé

Support