Was Sie sehen, ist was Sie lesen? Verbesserung der Bewertung der Text-Bild-Ausrichtung
What You See is What You Read? Improving Text-Image Alignment Evaluation
May 17, 2023
Autoren: Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor
cs.AI
Zusammenfassung
Die automatische Bestimmung, ob ein Text und ein entsprechendes Bild semantisch übereinstimmen, stellt eine bedeutende Herausforderung für visuell-sprachliche Modelle dar, mit Anwendungen in generativen Text-zu-Bild- und Bild-zu-Text-Aufgaben. In dieser Arbeit untersuchen wir Methoden zur automatischen Bewertung der Text-Bild-Übereinstimmung. Zunächst stellen wir SeeTRUE vor: einen umfassenden Bewertungssatz, der mehrere Datensätze aus sowohl Text-zu-Bild- als auch Bild-zu-Text-Generierungsaufgaben umfasst und menschliche Bewertungen darüber enthält, ob ein gegebenes Text-Bild-Paar semantisch übereinstimmt. Anschließend beschreiben wir zwei automatische Methoden zur Bestimmung der Übereinstimmung: Die erste beinhaltet eine Pipeline basierend auf Fragen generierenden und visuellen Fragen beantwortenden Modellen, während die zweite einen end-to-end Klassifikationsansatz durch das Feinabstimmen von multimodalen vortrainierten Modellen verwendet. Beide Methoden übertreffen bisherige Ansätze in verschiedenen Text-Bild-Übereinstimmungsaufgaben, mit signifikanten Verbesserungen in anspruchsvollen Fällen, die komplexe Kompositionen oder unnatürliche Bilder beinhalten. Schließlich zeigen wir, wie unsere Ansätze spezifische Fehlübereinstimmungen zwischen einem Bild und einem gegebenen Text lokalisieren können und wie sie zur automatischen Neubewertung von Kandidaten in der Text-zu-Bild-Generierung verwendet werden können.
English
Automatically determining whether a text and a corresponding image are
semantically aligned is a significant challenge for vision-language models,
with applications in generative text-to-image and image-to-text tasks. In this
work, we study methods for automatic text-image alignment evaluation. We first
introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets
from both text-to-image and image-to-text generation tasks, with human
judgements for whether a given text-image pair is semantically aligned. We then
describe two automatic methods to determine alignment: the first involving a
pipeline based on question generation and visual question answering models, and
the second employing an end-to-end classification approach by finetuning
multimodal pretrained models. Both methods surpass prior approaches in various
text-image alignment tasks, with significant improvements in challenging cases
that involve complex composition or unnatural images. Finally, we demonstrate
how our approaches can localize specific misalignments between an image and a
given text, and how they can be used to automatically re-rank candidates in
text-to-image generation.