Ce que vous voyez est ce que vous lisez ? Améliorer l'évaluation de l'alignement texte-image
What You See is What You Read? Improving Text-Image Alignment Evaluation
May 17, 2023
Auteurs: Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor
cs.AI
Résumé
Déterminer automatiquement si un texte et une image correspondante sont sémantiquement alignés constitue un défi majeur pour les modèles vision-langage, avec des applications dans les tâches génératives texte-à-image et image-à-texte. Dans ce travail, nous étudions des méthodes pour l'évaluation automatique de l'alignement texte-image. Nous introduisons d'abord SeeTRUE : un ensemble d'évaluation complet, couvrant plusieurs jeux de données issus des tâches de génération texte-à-image et image-à-texte, avec des jugements humains sur l'alignement sémantique d'une paire texte-image donnée. Nous décrivons ensuite deux méthodes automatiques pour déterminer cet alignement : la première impliquant un pipeline basé sur la génération de questions et des modèles de réponse à des questions visuelles, et la seconde utilisant une approche de classification de bout en bout par affinage de modèles multimodaux pré-entraînés. Les deux méthodes surpassent les approches précédentes dans diverses tâches d'alignement texte-image, avec des améliorations significatives dans les cas difficiles impliquant une composition complexe ou des images non naturelles. Enfin, nous montrons comment nos approches peuvent localiser des désalignements spécifiques entre une image et un texte donné, et comment elles peuvent être utilisées pour reclasser automatiquement les candidats dans la génération texte-à-image.
English
Automatically determining whether a text and a corresponding image are
semantically aligned is a significant challenge for vision-language models,
with applications in generative text-to-image and image-to-text tasks. In this
work, we study methods for automatic text-image alignment evaluation. We first
introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets
from both text-to-image and image-to-text generation tasks, with human
judgements for whether a given text-image pair is semantically aligned. We then
describe two automatic methods to determine alignment: the first involving a
pipeline based on question generation and visual question answering models, and
the second employing an end-to-end classification approach by finetuning
multimodal pretrained models. Both methods surpass prior approaches in various
text-image alignment tasks, with significant improvements in challenging cases
that involve complex composition or unnatural images. Finally, we demonstrate
how our approaches can localize specific misalignments between an image and a
given text, and how they can be used to automatically re-rank candidates in
text-to-image generation.