Das Erlernen der Visualität von Text mithilfe großer visuell-sprachlicher Modelle
Learning the Visualness of Text Using Large Vision-Language Models
May 11, 2023
Autoren: Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova
cs.AI
Zusammenfassung
Visueller Text ruft ein Bild im Geist einer Person hervor, während nicht-visueller Text dies nicht schafft. Eine Methode zur automatischen Erkennung von Visualität in Texten wird die Möglichkeit eröffnen, Texte mit relevanten Bildern zu ergänzen, da neuronale Text-zu-Bild-Generierungs- und Retrieval-Modelle auf der impliziten Annahme basieren, dass der Eingabetext visueller Natur ist. Wir haben einen Datensatz von 3.620 englischen Sätzen und deren Visualitätsbewertungen, die von mehreren menschlichen Annotatoren bereitgestellt wurden, zusammengestellt. Zusätzlich verwenden wir Dokumente, die Text und visuelle Elemente enthalten, um ein distanziell überwachtes Korpus aus Dokumenttexten und zugehörigen Bildern zu erstellen. Wir schlagen außerdem eine Feinabstimmungsstrategie vor, die große Vision-Language-Modelle wie CLIP, die eine Eins-zu-eins-Korrespondenz zwischen Text und Bild voraussetzen, an die Aufgabe anpasst, die Visualität von Texten allein aus dem Textinput zu bewerten. Unsere Strategie beinhaltet die Modifikation des kontrastiven Lernziels des Modells, um Text, der als nicht-visuell identifiziert wird, auf ein gemeinsames NULL-Bild abzubilden, während visueller Text den entsprechenden Bildern im Dokument zugeordnet wird. Wir bewerten den vorgeschlagenen Ansatz hinsichtlich seiner Fähigkeit, (i) visuellen und nicht-visuellen Text genau zu klassifizieren und (ii) Wörter zu berücksichtigen, die in psycholinguistischen Studien als visuell identifiziert wurden. Die empirische Auswertung zeigt, dass unser Ansatz für die vorgeschlagene Aufgabe besser abschneidet als mehrere Heuristiken und Baseline-Modelle. Darüber hinaus führen wir qualitative Analysen von Text-zu-Bild-Generierungssystemen wie DALL-E durch, um die Bedeutung der Modellierung der Visualität von Texten hervorzuheben.
English
Visual text evokes an image in a person's mind, while non-visual text fails
to do so. A method to automatically detect visualness in text will unlock the
ability to augment text with relevant images, as neural text-to-image
generation and retrieval models operate on the implicit assumption that the
input text is visual in nature. We curate a dataset of 3,620 English sentences
and their visualness scores provided by multiple human annotators.
Additionally, we use documents that contain text and visual assets to create a
distantly supervised corpus of document text and associated images. We also
propose a fine-tuning strategy that adapts large vision-language models like
CLIP that assume a one-to-one correspondence between text and image to the task
of scoring text visualness from text input alone. Our strategy involves
modifying the model's contrastive learning objective to map text identified as
non-visual to a common NULL image while matching visual text to their
corresponding images in the document. We evaluate the proposed approach on its
ability to (i) classify visual and non-visual text accurately, and (ii) attend
over words that are identified as visual in psycholinguistic studies. Empirical
evaluation indicates that our approach performs better than several heuristics
and baseline models for the proposed task. Furthermore, to highlight the
importance of modeling the visualness of text, we conduct qualitative analyses
of text-to-image generation systems like DALL-E.