VisualGPTScore : Raisonnement Visio-Linguistique avec Scores de Pré-Entraînement Générique Multimodal
VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores
June 2, 2023
Auteurs: Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan
cs.AI
Résumé
Les modèles vision-langage (VLMs) pré-entraînés de manière discriminative avec des fonctions de perte contrastives d'appariement image-texte telles que P(match|texte, image) ont été critiqués pour leur manque de compréhension compositionnelle. Cela signifie qu'ils peuvent produire des scores similaires même si la légende originale est réorganisée en une déclaration sémantique différente. Pour remédier à cela, nous proposons d'utiliser le {bf S}core de {bf P}re-{bf E}ntraînement {bf G}énératif {bf V}isuel ({bf VisualGPTScore}) de P(texte|image), un score génératif multimodal qui capture la probabilité d'une légende textuelle conditionnée à une image en utilisant un modèle de langage conditionné par l'image. Contrairement à l'idée que les VLMs sont de simples modèles de sacs de mots, notre VisualGPTScore prêt à l'emploi démontre des performances de premier plan sur des benchmarks récemment proposés pour la recherche d'images-textes comme ARO et Crepe, qui évaluent le raisonnement compositionnel. De plus, nous factorisons VisualGPTScore en un produit de la marginale P(texte) et de l'Information Mutuelle Ponctuelle (PMI). Cela permet de (a) diagnostiquer les ensembles de données présentant un fort biais linguistique, et (b) de débiaiser les résultats sur d'autres benchmarks comme Winoground en utilisant un cadre information-théorique. VisualGPTScore fournit des insights précieux et sert de référence solide pour l'évaluation future de la compositionnalité visio-linguistique.
English
Vision-language models (VLMs) discriminatively pre-trained with contrastive
image-text matching losses such as P(match|text, image)
have been criticized for lacking compositional understanding. This means they
might output similar scores even if the original caption is rearranged into a
different semantic statement. To address this, we propose to use the {bf
V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf
VisualGPTScore}) of P(text|image), a multimodal
generative score that captures the likelihood of a text caption conditioned
on an image using an image-conditioned language model. Contrary to the belief
that VLMs are mere bag-of-words models, our off-the-shelf VisualGPTScore
demonstrates top-tier performance on recently proposed image-text retrieval
benchmarks like ARO and Crepe that assess compositional reasoning. Furthermore,
we factorize VisualGPTScore into a product of the marginal P(text)
and the Pointwise Mutual Information (PMI). This helps to (a)
diagnose datasets with strong language bias, and (b) debias results on other
benchmarks like Winoground using an information-theoretic framework.
VisualGPTScore provides valuable insights and serves as a strong baseline for
future evaluation of visio-linguistic compositionality.