O Que Você Vê é o Que Você Lê? Melhorando a Avaliação do Alinhamento Texto-Imagem

Resumo

Determinar automaticamente se um texto e uma imagem correspondente estão semanticamente alinhados é um desafio significativo para modelos de visão e linguagem, com aplicações em tarefas generativas de texto-para-imagem e imagem-para-texto. Neste trabalho, estudamos métodos para avaliação automática do alinhamento texto-imagem. Primeiro, apresentamos o SeeTRUE: um conjunto de avaliação abrangente, abrangendo múltiplos conjuntos de dados de tarefas de geração de texto-para-imagem e imagem-para-texto, com julgamentos humanos sobre se um determinado par texto-imagem está semanticamente alinhado. Em seguida, descrevemos dois métodos automáticos para determinar o alinhamento: o primeiro envolvendo um pipeline baseado em geração de perguntas e modelos de resposta a perguntas visuais, e o segundo empregando uma abordagem de classificação de ponta a ponta por meio do ajuste fino de modelos pré-treinados multimodais. Ambos os métodos superam abordagens anteriores em várias tarefas de alinhamento texto-imagem, com melhorias significativas em casos desafiadores que envolvem composição complexa ou imagens não naturais. Por fim, demonstramos como nossas abordagens podem localizar desalinhamentos específicos entre uma imagem e um texto dado, e como podem ser usadas para reclassificar automaticamente candidatos na geração de texto-para-imagem.

English

Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.

O Que Você Vê é o Que Você Lê? Melhorando a Avaliação do Alinhamento Texto-Imagem

What You See is What You Read? Improving Text-Image Alignment Evaluation

Resumo

Support