Het leren van de visuele eigenschappen van tekst met behulp van grote visueel-taalkundige modellen
Learning the Visualness of Text Using Large Vision-Language Models
May 11, 2023
Auteurs: Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova
cs.AI
Samenvatting
Visuele tekst roept een beeld op in iemands geest, terwijl niet-visuele tekst dit niet doet. Een methode om visualiteit in tekst automatisch te detecteren, zal de mogelijkheid ontsluiten om tekst te verrijken met relevante afbeeldingen, aangezien neurale tekst-naar-beeldgeneratie- en retrievalsystemen uitgaan van de impliciete aanname dat de invoertekst visueel van aard is. We hebben een dataset samengesteld van 3.620 Engelse zinnen en hun visualiteitsscores, verstrekt door meerdere menselijke annotators. Daarnaast gebruiken we documenten die tekst en visuele elementen bevatten om een op afstand begeleid corpus te creëren van documenttekst en bijbehorende afbeeldingen. We stellen ook een fine-tuningstrategie voor die grote visie-taalmodellen zoals CLIP aanpast, die uitgaan van een één-op-één-correspondentie tussen tekst en beeld, voor de taak om visualiteit van tekst te beoordelen op basis van alleen tekstinvoer. Onze strategie omvat het aanpassen van het contrastieve leerdoel van het model om tekst die als niet-visueel wordt geïdentificeerd, te koppelen aan een gemeenschappelijke NULL-afbeelding, terwijl visuele tekst wordt gematcht met hun corresponderende afbeeldingen in het document. We evalueren de voorgestelde aanpak op zijn vermogen om (i) visuele en niet-visuele tekst nauwkeurig te classificeren, en (ii) aandacht te besteden aan woorden die in psycholinguïstische studies als visueel worden geïdentificeerd. Empirische evaluatie geeft aan dat onze aanpak beter presteert dan verschillende heuristieken en basismodellen voor de voorgestelde taak. Bovendien voeren we kwalitatieve analyses uit van tekst-naar-beeldgeneratiesystemen zoals DALL-E om het belang van het modelleren van de visualiteit van tekst te benadrukken.
English
Visual text evokes an image in a person's mind, while non-visual text fails
to do so. A method to automatically detect visualness in text will unlock the
ability to augment text with relevant images, as neural text-to-image
generation and retrieval models operate on the implicit assumption that the
input text is visual in nature. We curate a dataset of 3,620 English sentences
and their visualness scores provided by multiple human annotators.
Additionally, we use documents that contain text and visual assets to create a
distantly supervised corpus of document text and associated images. We also
propose a fine-tuning strategy that adapts large vision-language models like
CLIP that assume a one-to-one correspondence between text and image to the task
of scoring text visualness from text input alone. Our strategy involves
modifying the model's contrastive learning objective to map text identified as
non-visual to a common NULL image while matching visual text to their
corresponding images in the document. We evaluate the proposed approach on its
ability to (i) classify visual and non-visual text accurately, and (ii) attend
over words that are identified as visual in psycholinguistic studies. Empirical
evaluation indicates that our approach performs better than several heuristics
and baseline models for the proposed task. Furthermore, to highlight the
importance of modeling the visualness of text, we conduct qualitative analyses
of text-to-image generation systems like DALL-E.