VisualGPTScore: マルチモーダル生成事前学習スコアを用いた視覚言語推論
VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores
June 2, 2023
著者: Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan
cs.AI
要旨
コントラスティブな画像-テキストマッチング損失(例:P(match|text, image))を用いて識別的に事前学習された視覚-言語モデル(VLMs)は、構成論的理解を欠いていると批判されてきました。これは、元のキャプションが異なる意味的記述に並べ替えられた場合でも、類似したスコアを出力する可能性があることを意味します。この問題に対処するため、我々は画像条件付き言語モデルを用いて、テキストキャプションが画像に条件付けられた尤度を捉えるマルチモーダル生成スコアであるP(text|image)の{bf V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf VisualGPTScore})を提案します。VLMsが単なるバッグ・オブ・ワーズモデルであるという見解に反し、我々のオフ・ザ・シェルフのVisualGPTScoreは、構成論的推論を評価する最近提案されたAROやCrepeなどの画像-テキスト検索ベンチマークでトップクラスの性能を発揮します。さらに、VisualGPTScoreを周辺確率P(text)と点相互情報量(PMI)の積に分解します。これにより、(a) 強い言語バイアスを持つデータセットを診断し、(b) 情報理論的フレームワークを用いてWinogroundなどの他のベンチマークの結果をデバイアスすることが可能になります。VisualGPTScoreは、視覚-言語的構成性の将来の評価において貴重な洞察を提供し、強力なベースラインとして機能します。
English
Vision-language models (VLMs) discriminatively pre-trained with contrastive
image-text matching losses such as P(match|text, image)
have been criticized for lacking compositional understanding. This means they
might output similar scores even if the original caption is rearranged into a
different semantic statement. To address this, we propose to use the {bf
V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf
VisualGPTScore}) of P(text|image), a multimodal
generative score that captures the likelihood of a text caption conditioned
on an image using an image-conditioned language model. Contrary to the belief
that VLMs are mere bag-of-words models, our off-the-shelf VisualGPTScore
demonstrates top-tier performance on recently proposed image-text retrieval
benchmarks like ARO and Crepe that assess compositional reasoning. Furthermore,
we factorize VisualGPTScore into a product of the marginal P(text)
and the Pointwise Mutual Information (PMI). This helps to (a)
diagnose datasets with strong language bias, and (b) debias results on other
benchmarks like Winoground using an information-theoretic framework.
VisualGPTScore provides valuable insights and serves as a strong baseline for
future evaluation of visio-linguistic compositionality.