VisualGPTScore: Визуально-лингвистическое рассуждение с использованием мультимодальных оценок генеративного предварительного обучения
VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores
June 2, 2023
Авторы: Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), предварительно обученные дискриминативно с использованием контрастных функций потерь для сопоставления изображений и текста, таких как P(совпадение|текст, изображение), подвергались критике за отсутствие композиционного понимания. Это означает, что они могут выдавать схожие оценки, даже если исходная подпись перестроена в другое семантическое утверждение. Чтобы решить эту проблему, мы предлагаем использовать {bf V}изуальный {bf Г}енеративный {bf П}редварительный {bf О}ценщик ({bf VisualGPTScore}) для P(текст|изображение) — мультимодальную генеративную оценку, которая определяет вероятность текстовой подписи, обусловленной изображением, с использованием языковой модели, учитывающей изображение. Вопреки мнению, что VLMs являются просто моделями "мешка слов", наш готовый VisualGPTScore демонстрирует высочайшую производительность на недавно предложенных тестах для извлечения изображений и текста, таких как ARO и Crepe, которые оценивают композиционное мышление. Кроме того, мы разлагаем VisualGPTScore на произведение маргинальной вероятности P(текст) и точечной взаимной информации (Pointwise Mutual Information, PMI). Это помогает (a) диагностировать наборы данных с сильной языковой предвзятостью и (b) устранять предвзятость в результатах на других тестах, таких как Winoground, с использованием информационно-теоретического подхода. VisualGPTScore предоставляет ценные инсайты и служит надежным базовым уровнем для будущей оценки визуально-лингвистической композиционности.
English
Vision-language models (VLMs) discriminatively pre-trained with contrastive
image-text matching losses such as P(match|text, image)
have been criticized for lacking compositional understanding. This means they
might output similar scores even if the original caption is rearranged into a
different semantic statement. To address this, we propose to use the {bf
V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf
VisualGPTScore}) of P(text|image), a multimodal
generative score that captures the likelihood of a text caption conditioned
on an image using an image-conditioned language model. Contrary to the belief
that VLMs are mere bag-of-words models, our off-the-shelf VisualGPTScore
demonstrates top-tier performance on recently proposed image-text retrieval
benchmarks like ARO and Crepe that assess compositional reasoning. Furthermore,
we factorize VisualGPTScore into a product of the marginal P(text)
and the Pointwise Mutual Information (PMI). This helps to (a)
diagnose datasets with strong language bias, and (b) debias results on other
benchmarks like Winoground using an information-theoretic framework.
VisualGPTScore provides valuable insights and serves as a strong baseline for
future evaluation of visio-linguistic compositionality.