Aprendendo a visualidade do texto usando grandes modelos de visão e linguagem
Learning the Visualness of Text Using Large Vision-Language Models
May 11, 2023
Autores: Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova
cs.AI
Resumo
O texto visual evoca uma imagem na mente de uma pessoa, enquanto o texto não visual não consegue fazer isso. Um método para detectar automaticamente a visualidade em textos desbloqueará a capacidade de aumentar textos com imagens relevantes, já que os modelos neurais de geração e recuperação de texto para imagem operam sob a suposição implícita de que o texto de entrada é visual por natureza. Nós organizamos um conjunto de dados de 3.620 frases em inglês e suas pontuações de visualidade fornecidas por múltiplos anotadores humanos. Além disso, usamos documentos que contêm texto e recursos visuais para criar um corpus supervisionado à distância de texto de documento e imagens associadas. Também propomos uma estratégia de ajuste fino que adapta grandes modelos de visão e linguagem, como o CLIP, que assumem uma correspondência um-para-um entre texto e imagem, para a tarefa de pontuar a visualidade do texto apenas a partir da entrada de texto. Nossa estratégia envolve modificar o objetivo de aprendizado contrastivo do modelo para mapear textos identificados como não visuais para uma imagem NULL comum, enquanto textos visuais são correspondidos às suas imagens correspondentes no documento. Avaliamos a abordagem proposta em sua capacidade de (i) classificar com precisão textos visuais e não visuais, e (ii) atentar para palavras que são identificadas como visuais em estudos psicolinguísticos. A avaliação empírica indica que nossa abordagem tem um desempenho melhor do que várias heurísticas e modelos de linha de base para a tarefa proposta. Além disso, para destacar a importância de modelar a visualidade do texto, realizamos análises qualitativas de sistemas de geração de texto para imagem, como o DALL-E.
English
Visual text evokes an image in a person's mind, while non-visual text fails
to do so. A method to automatically detect visualness in text will unlock the
ability to augment text with relevant images, as neural text-to-image
generation and retrieval models operate on the implicit assumption that the
input text is visual in nature. We curate a dataset of 3,620 English sentences
and their visualness scores provided by multiple human annotators.
Additionally, we use documents that contain text and visual assets to create a
distantly supervised corpus of document text and associated images. We also
propose a fine-tuning strategy that adapts large vision-language models like
CLIP that assume a one-to-one correspondence between text and image to the task
of scoring text visualness from text input alone. Our strategy involves
modifying the model's contrastive learning objective to map text identified as
non-visual to a common NULL image while matching visual text to their
corresponding images in the document. We evaluate the proposed approach on its
ability to (i) classify visual and non-visual text accurately, and (ii) attend
over words that are identified as visual in psycholinguistic studies. Empirical
evaluation indicates that our approach performs better than several heuristics
and baseline models for the proposed task. Furthermore, to highlight the
importance of modeling the visualness of text, we conduct qualitative analyses
of text-to-image generation systems like DALL-E.