VisualGPTScore: Ragionamento Visio-Linguistico con Punteggi di Pre-Addestramento Generativo Multimodale
VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores
June 2, 2023
Autori: Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) pre-addestrati in modo discriminativo con funzioni di perdita di corrispondenza immagine-testo contrastive come P(match|testo, immagine) sono stati criticati per la mancanza di comprensione composizionale. Ciò significa che potrebbero restituire punteggi simili anche se la didascalia originale viene riorganizzata in un'affermazione semantica diversa. Per affrontare questo problema, proponiamo di utilizzare il {bf V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf VisualGPTScore}) di P(testo|immagine), un punteggio generativo multimodale che cattura la probabilità di una didascalia testuale condizionata a un'immagine utilizzando un modello linguistico condizionato all'immagine. Contrariamente alla convinzione che i VLMs siano semplici modelli bag-of-words, il nostro VisualGPTScore pronto all'uso dimostra prestazioni di alto livello su benchmark recentemente proposti per il recupero immagine-testo come ARO e Crepe, che valutano il ragionamento composizionale. Inoltre, fattorizziamo VisualGPTScore in un prodotto della marginale P(testo) e dell'Informazione Mutua Puntuale (PMI). Questo aiuta a (a) diagnosticare dataset con un forte bias linguistico e (b) correggere i risultati su altri benchmark come Winoground utilizzando un framework teorico dell'informazione. VisualGPTScore fornisce intuizioni preziose e rappresenta una solida baseline per la futura valutazione della composizionalità visuo-linguistica.
English
Vision-language models (VLMs) discriminatively pre-trained with contrastive
image-text matching losses such as P(match|text, image)
have been criticized for lacking compositional understanding. This means they
might output similar scores even if the original caption is rearranged into a
different semantic statement. To address this, we propose to use the {bf
V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf
VisualGPTScore}) of P(text|image), a multimodal
generative score that captures the likelihood of a text caption conditioned
on an image using an image-conditioned language model. Contrary to the belief
that VLMs are mere bag-of-words models, our off-the-shelf VisualGPTScore
demonstrates top-tier performance on recently proposed image-text retrieval
benchmarks like ARO and Crepe that assess compositional reasoning. Furthermore,
we factorize VisualGPTScore into a product of the marginal P(text)
and the Pointwise Mutual Information (PMI). This helps to (a)
diagnose datasets with strong language bias, and (b) debias results on other
benchmarks like Winoground using an information-theoretic framework.
VisualGPTScore provides valuable insights and serves as a strong baseline for
future evaluation of visio-linguistic compositionality.