VisualGPTScore: Visio-linguistisches Reasoning mit multimodalen Generative-Pre-Training-Scores
VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores
June 2, 2023
Autoren: Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan
cs.AI
Zusammenfassung
Vision-Language-Modelle (VLMs), die diskriminativ mit kontrastiven Bild-Text-Abgleichverlusten wie P(match|Text, Bild) vortrainiert wurden, wurden dafür kritisiert, dass sie kein kompositionelles Verständnis besitzen. Dies bedeutet, dass sie ähnliche Scores ausgeben könnten, selbst wenn die ursprüngliche Bildbeschreibung in eine andere semantische Aussage umgeordnet wird. Um dies zu adressieren, schlagen wir die Verwendung des {bf V}isualen {bf G}enerativen {bf P}re-{bf T}raining-Scores ({bf VisualGPTScore}) von P(Text|Bild) vor, eines multimodalen generativen Scores, der die Wahrscheinlichkeit einer Textbeschreibung unter der Bedingung eines Bildes mithilfe eines bildgesteuerten Sprachmodells erfasst. Entgegen der Annahme, dass VLMs lediglich Bag-of-Words-Modelle sind, zeigt unser direkt einsetzbarer VisualGPTScore Spitzenleistungen auf kürzlich vorgeschlagenen Bild-Text-Retrieval-Benchmarks wie ARO und Crepe, die kompositionelles Denken bewerten. Darüber hinaus zerlegen wir den VisualGPTScore in ein Produkt aus der marginalen Wahrscheinlichkeit P(Text) und der punktweisen gegenseitigen Information (PMI). Dies hilft dabei, (a) Datensätze mit starker Sprachverzerrung zu diagnostizieren und (b) Ergebnisse auf anderen Benchmarks wie Winoground mithilfe eines informationstheoretischen Frameworks zu entzerren. Der VisualGPTScore liefert wertvolle Einblicke und dient als starke Baseline für die zukünftige Bewertung visio-linguistischer Kompositionalität.
English
Vision-language models (VLMs) discriminatively pre-trained with contrastive
image-text matching losses such as P(match|text, image)
have been criticized for lacking compositional understanding. This means they
might output similar scores even if the original caption is rearranged into a
different semantic statement. To address this, we propose to use the {bf
V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf
VisualGPTScore}) of P(text|image), a multimodal
generative score that captures the likelihood of a text caption conditioned
on an image using an image-conditioned language model. Contrary to the belief
that VLMs are mere bag-of-words models, our off-the-shelf VisualGPTScore
demonstrates top-tier performance on recently proposed image-text retrieval
benchmarks like ARO and Crepe that assess compositional reasoning. Furthermore,
we factorize VisualGPTScore into a product of the marginal P(text)
and the Pointwise Mutual Information (PMI). This helps to (a)
diagnose datasets with strong language bias, and (b) debias results on other
benchmarks like Winoground using an information-theoretic framework.
VisualGPTScore provides valuable insights and serves as a strong baseline for
future evaluation of visio-linguistic compositionality.