Aprendiendo la visualidad del texto mediante modelos grandes de visión y lenguaje.
Learning the Visualness of Text Using Large Vision-Language Models
May 11, 2023
Autores: Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova
cs.AI
Resumen
El texto visual evoca una imagen en la mente de una persona, mientras que el texto no visual no lo logra. Un método para detectar automáticamente la visualidad en el texto permitirá aumentar el texto con imágenes relevantes, ya que los modelos neuronales de generación y recuperación de texto a imagen operan bajo la suposición implícita de que el texto de entrada es visual por naturaleza. Recopilamos un conjunto de datos de 3.620 oraciones en inglés y sus puntuaciones de visualidad proporcionadas por múltiples anotadores humanos. Además, utilizamos documentos que contienen texto y recursos visuales para crear un corpus supervisado de manera distante de texto de documento e imágenes asociadas. También proponemos una estrategia de ajuste fino que adapta modelos grandes de visión y lenguaje, como CLIP, que asumen una correspondencia uno a uno entre texto e imagen, a la tarea de puntuar la visualidad del texto únicamente a partir de la entrada de texto. Nuestra estrategia implica modificar el objetivo de aprendizaje contrastivo del modelo para mapear texto identificado como no visual a una imagen NULL común, mientras se empareja texto visual con sus imágenes correspondientes en el documento. Evaluamos el enfoque propuesto en su capacidad para (i) clasificar texto visual y no visual con precisión, y (ii) enfocarse en palabras identificadas como visuales en estudios psicolingüísticos. La evaluación empírica indica que nuestro enfoque supera varias heurísticas y modelos de referencia para la tarea propuesta. Además, para resaltar la importancia de modelar la visualidad del texto, realizamos análisis cualitativos de sistemas de generación de texto a imagen como DALL-E.
English
Visual text evokes an image in a person's mind, while non-visual text fails
to do so. A method to automatically detect visualness in text will unlock the
ability to augment text with relevant images, as neural text-to-image
generation and retrieval models operate on the implicit assumption that the
input text is visual in nature. We curate a dataset of 3,620 English sentences
and their visualness scores provided by multiple human annotators.
Additionally, we use documents that contain text and visual assets to create a
distantly supervised corpus of document text and associated images. We also
propose a fine-tuning strategy that adapts large vision-language models like
CLIP that assume a one-to-one correspondence between text and image to the task
of scoring text visualness from text input alone. Our strategy involves
modifying the model's contrastive learning objective to map text identified as
non-visual to a common NULL image while matching visual text to their
corresponding images in the document. We evaluate the proposed approach on its
ability to (i) classify visual and non-visual text accurately, and (ii) attend
over words that are identified as visual in psycholinguistic studies. Empirical
evaluation indicates that our approach performs better than several heuristics
and baseline models for the proposed task. Furthermore, to highlight the
importance of modeling the visualness of text, we conduct qualitative analyses
of text-to-image generation systems like DALL-E.