Apprendere la visualità del testo utilizzando grandi modelli visione-linguaggio
Learning the Visualness of Text Using Large Vision-Language Models
May 11, 2023
Autori: Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova
cs.AI
Abstract
Il testo visivo evoca un'immagine nella mente di una persona, mentre il testo non visivo non riesce a farlo. Un metodo per rilevare automaticamente la visualità nel testo sbloccherà la capacità di arricchire il testo con immagini pertinenti, poiché i modelli neurali di generazione e recupero di immagini da testo operano sull'assunzione implicita che il testo in input sia di natura visiva. Abbiamo curato un dataset di 3.620 frasi in inglese e i loro punteggi di visualità forniti da più annotatori umani. Inoltre, utilizziamo documenti che contengono testo e risorse visive per creare un corpus supervisionato a distanza di testo documentale e immagini associate. Proponiamo anche una strategia di fine-tuning che adatta grandi modelli visione-linguaggio come CLIP, che presuppongono una corrispondenza uno-a-uno tra testo e immagine, al compito di valutare la visualità del testo solo dall'input testuale. La nostra strategia prevede la modifica dell'obiettivo di apprendimento contrastivo del modello per mappare il testo identificato come non visivo a un'immagine NULL comune, mentre il testo visivo viene abbinato alle immagini corrispondenti nel documento. Valutiamo l'approccio proposto sulla sua capacità di (i) classificare accuratamente il testo visivo e non visivo, e (ii) focalizzarsi sulle parole identificate come visive negli studi psicolinguistici. La valutazione empirica indica che il nostro approccio performa meglio di diverse euristiche e modelli di base per il compito proposto. Inoltre, per evidenziare l'importanza di modellare la visualità del testo, conduciamo analisi qualitative di sistemi di generazione di immagini da testo come DALL-E.
English
Visual text evokes an image in a person's mind, while non-visual text fails
to do so. A method to automatically detect visualness in text will unlock the
ability to augment text with relevant images, as neural text-to-image
generation and retrieval models operate on the implicit assumption that the
input text is visual in nature. We curate a dataset of 3,620 English sentences
and their visualness scores provided by multiple human annotators.
Additionally, we use documents that contain text and visual assets to create a
distantly supervised corpus of document text and associated images. We also
propose a fine-tuning strategy that adapts large vision-language models like
CLIP that assume a one-to-one correspondence between text and image to the task
of scoring text visualness from text input alone. Our strategy involves
modifying the model's contrastive learning objective to map text identified as
non-visual to a common NULL image while matching visual text to their
corresponding images in the document. We evaluate the proposed approach on its
ability to (i) classify visual and non-visual text accurately, and (ii) attend
over words that are identified as visual in psycholinguistic studies. Empirical
evaluation indicates that our approach performs better than several heuristics
and baseline models for the proposed task. Furthermore, to highlight the
importance of modeling the visualness of text, we conduct qualitative analyses
of text-to-image generation systems like DALL-E.