ChatPaper.aiChatPaper

VisualGPTScore: Razonamiento Visio-Lingüístico con Puntuaciones de Pre-Entrenamiento Generativo Multimodal

VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores

June 2, 2023
Autores: Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan
cs.AI

Resumen

Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) preentrenados de manera discriminativa con pérdidas de emparejamiento imagen-texto contrastivas, como P(emparejamiento|texto, imagen), han sido criticados por carecer de comprensión composicional. Esto significa que podrían generar puntuaciones similares incluso si el texto original se reorganiza en una declaración semántica diferente. Para abordar este problema, proponemos utilizar la {bf Puntuación de Preentrenamiento Generativo Visual} ({bf VisualGPTScore}) de P(texto|imagen), una puntuación generativa multimodal que captura la probabilidad de un texto descriptivo condicionado a una imagen utilizando un modelo de lenguaje condicionado por imágenes. Contrario a la creencia de que los VLMs son meros modelos de "bolsa de palabras", nuestra VisualGPTScore lista para usar demuestra un rendimiento de primer nivel en benchmarks recientemente propuestos para recuperación imagen-texto, como ARO y Crepe, que evalúan el razonamiento composicional. Además, factorizamos VisualGPTScore en un producto de la probabilidad marginal P(texto) y la Información Mutua Puntual (PMI, por sus siglas en inglés). Esto ayuda a (a) diagnosticar conjuntos de datos con un fuerte sesgo lingüístico y (b) reducir el sesgo en los resultados de otros benchmarks como Winoground utilizando un marco teórico de la información. VisualGPTScore proporciona insights valiosos y sirve como una línea base sólida para la futura evaluación de la composicionalidad visio-lingüística.
English
Vision-language models (VLMs) discriminatively pre-trained with contrastive image-text matching losses such as P(match|text, image) have been criticized for lacking compositional understanding. This means they might output similar scores even if the original caption is rearranged into a different semantic statement. To address this, we propose to use the {bf V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf VisualGPTScore}) of P(text|image), a multimodal generative score that captures the likelihood of a text caption conditioned on an image using an image-conditioned language model. Contrary to the belief that VLMs are mere bag-of-words models, our off-the-shelf VisualGPTScore demonstrates top-tier performance on recently proposed image-text retrieval benchmarks like ARO and Crepe that assess compositional reasoning. Furthermore, we factorize VisualGPTScore into a product of the marginal P(text) and the Pointwise Mutual Information (PMI). This helps to (a) diagnose datasets with strong language bias, and (b) debias results on other benchmarks like Winoground using an information-theoretic framework. VisualGPTScore provides valuable insights and serves as a strong baseline for future evaluation of visio-linguistic compositionality.
PDF10December 15, 2024