Apprentissage de la visualité du texte à l'aide de grands modèles vision-langage
Learning the Visualness of Text Using Large Vision-Language Models
May 11, 2023
Auteurs: Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova
cs.AI
Résumé
Le texte visuel évoque une image dans l'esprit d'une personne, tandis que le texte non visuel n'y parvient pas. Une méthode pour détecter automatiquement la visualité dans un texte permettra d'enrichir le texte avec des images pertinentes, car les modèles de génération et de récupération d'images à partir de texte neuronal opèrent sur l'hypothèse implicite que le texte d'entrée est de nature visuelle. Nous avons constitué un ensemble de données de 3 620 phrases en anglais et leurs scores de visualité fournis par plusieurs annotateurs humains. De plus, nous utilisons des documents contenant du texte et des éléments visuels pour créer un corpus supervisé à distance de texte documentaire et d'images associées. Nous proposons également une stratégie de fine-tuning qui adapte les grands modèles vision-langage comme CLIP, qui supposent une correspondance un-à-un entre texte et image, à la tâche d'évaluation de la visualité du texte à partir du seul texte d'entrée. Notre stratégie consiste à modifier l'objectif d'apprentissage contrastif du modèle pour mapper le texte identifié comme non visuel à une image NULL commune tout en faisant correspondre le texte visuel à leurs images correspondantes dans le document. Nous évaluons l'approche proposée sur sa capacité à (i) classer avec précision le texte visuel et non visuel, et (ii) se concentrer sur les mots identifiés comme visuels dans les études psycholinguistiques. L'évaluation empirique indique que notre approche surpasse plusieurs heuristiques et modèles de base pour la tâche proposée. Par ailleurs, pour souligner l'importance de modéliser la visualité du texte, nous menons des analyses qualitatives des systèmes de génération d'images à partir de texte comme DALL-E.
English
Visual text evokes an image in a person's mind, while non-visual text fails
to do so. A method to automatically detect visualness in text will unlock the
ability to augment text with relevant images, as neural text-to-image
generation and retrieval models operate on the implicit assumption that the
input text is visual in nature. We curate a dataset of 3,620 English sentences
and their visualness scores provided by multiple human annotators.
Additionally, we use documents that contain text and visual assets to create a
distantly supervised corpus of document text and associated images. We also
propose a fine-tuning strategy that adapts large vision-language models like
CLIP that assume a one-to-one correspondence between text and image to the task
of scoring text visualness from text input alone. Our strategy involves
modifying the model's contrastive learning objective to map text identified as
non-visual to a common NULL image while matching visual text to their
corresponding images in the document. We evaluate the proposed approach on its
ability to (i) classify visual and non-visual text accurately, and (ii) attend
over words that are identified as visual in psycholinguistic studies. Empirical
evaluation indicates that our approach performs better than several heuristics
and baseline models for the proposed task. Furthermore, to highlight the
importance of modeling the visualness of text, we conduct qualitative analyses
of text-to-image generation systems like DALL-E.