ChatPaper.aiChatPaper

¿Lo que ves es lo que lees? Mejorando la evaluación de la alineación texto-imagen

What You See is What You Read? Improving Text-Image Alignment Evaluation

May 17, 2023
Autores: Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor
cs.AI

Resumen

Determinar automáticamente si un texto y una imagen correspondiente están alineados semánticamente es un desafío significativo para los modelos de visión y lenguaje, con aplicaciones en tareas generativas de texto a imagen y de imagen a texto. En este trabajo, estudiamos métodos para la evaluación automática de la alineación texto-imagen. Primero presentamos SeeTRUE: un conjunto de evaluación integral que abarca múltiples conjuntos de datos tanto de tareas de generación de texto a imagen como de imagen a texto, con juicios humanos sobre si un par texto-imagen dado está alineado semánticamente. Luego describimos dos métodos automáticos para determinar la alineación: el primero involucra una canalización basada en modelos de generación de preguntas y respuesta visual a preguntas, y el segundo emplea un enfoque de clasificación de extremo a extremo mediante el ajuste fino de modelos preentrenados multimodales. Ambos métodos superan enfoques previos en diversas tareas de alineación texto-imagen, con mejoras significativas en casos desafiantes que involucran composiciones complejas o imágenes no naturales. Finalmente, demostramos cómo nuestros enfoques pueden localizar desalineaciones específicas entre una imagen y un texto dado, y cómo pueden usarse para reordenar automáticamente candidatos en la generación de texto a imagen.
English
Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.
PDF20December 15, 2024