Wat Je Ziet is Wat Je Leest? Verbetering van de Evaluatie van Tekst-Beeld Afstemming
What You See is What You Read? Improving Text-Image Alignment Evaluation
May 17, 2023
Auteurs: Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor
cs.AI
Samenvatting
Automatisch bepalen of een tekst en een bijbehorende afbeelding semantisch op elkaar zijn afgestemd, is een belangrijke uitdaging voor visie-taalmodellen, met toepassingen in generatieve tekst-naar-afbeelding en afbeelding-naar-tekst taken. In dit werk bestuderen we methoden voor de automatische evaluatie van tekst-afbeelding-uitlijning. We introduceren eerst SeeTRUE: een uitgebreide evaluatieset, die meerdere datasets omvat van zowel tekst-naar-afbeelding als afbeelding-naar-tekst generatietaken, met menselijke beoordelingen over of een gegeven tekst-afbeeldingpaar semantisch is uitgelijnd. Vervolgens beschrijven we twee automatische methoden om de uitlijning te bepalen: de eerste betreft een pijplijn gebaseerd op vraaggeneratie en visuele vraag-antwoordmodellen, en de tweede maakt gebruik van een end-to-end classificatiebenadering door multimodale vooraf getrainde modellen te finetunen. Beide methoden overtreffen eerdere benaderingen in verschillende tekst-afbeelding-uitlijningstaken, met aanzienlijke verbeteringen in uitdagende gevallen die complexe compositie of onnatuurlijke afbeeldingen betreffen. Tot slot demonstreren we hoe onze benaderingen specifieke misaligneringen tussen een afbeelding en een gegeven tekst kunnen lokaliseren, en hoe ze kunnen worden gebruikt om kandidaten in tekst-naar-afbeelding generatie automatisch opnieuw te rangschikken.
English
Automatically determining whether a text and a corresponding image are
semantically aligned is a significant challenge for vision-language models,
with applications in generative text-to-image and image-to-text tasks. In this
work, we study methods for automatic text-image alignment evaluation. We first
introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets
from both text-to-image and image-to-text generation tasks, with human
judgements for whether a given text-image pair is semantically aligned. We then
describe two automatic methods to determine alignment: the first involving a
pipeline based on question generation and visual question answering models, and
the second employing an end-to-end classification approach by finetuning
multimodal pretrained models. Both methods surpass prior approaches in various
text-image alignment tasks, with significant improvements in challenging cases
that involve complex composition or unnatural images. Finally, we demonstrate
how our approaches can localize specific misalignments between an image and a
given text, and how they can be used to automatically re-rank candidates in
text-to-image generation.