Изучение визуальности текста с использованием крупных визуально-языковых моделей
Learning the Visualness of Text Using Large Vision-Language Models
May 11, 2023
Авторы: Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova
cs.AI
Аннотация
Визуальный текст вызывает образ в сознании человека, тогда как невизуальный текст этого не делает. Метод автоматического определения визуальности текста откроет возможность дополнять текст соответствующими изображениями, поскольку нейронные модели генерации и поиска изображений из текста работают на основе неявного предположения, что входной текст носит визуальный характер. Мы создали набор данных из 3 620 английских предложений и их оценок визуальности, предоставленных несколькими аннотаторами. Кроме того, мы используем документы, содержащие текст и визуальные элементы, для создания дистанционно контролируемого корпуса текста документов и связанных с ними изображений. Мы также предлагаем стратегию тонкой настройки, которая адаптирует крупные модели, работающие с текстом и изображениями, такие как CLIP, предполагающие однозначное соответствие между текстом и изображением, к задаче оценки визуальности текста только на основе текстового ввода. Наша стратегия включает изменение контрастивной цели обучения модели таким образом, чтобы текст, идентифицированный как невизуальный, сопоставлялся с общим NULL-изображением, а визуальный текст — с соответствующими изображениями в документе. Мы оцениваем предложенный подход по его способности (i) точно классифицировать визуальный и невизуальный текст и (ii) выделять слова, которые идентифицируются как визуальные в психолингвистических исследованиях. Эмпирическая оценка показывает, что наш подход превосходит несколько эвристик и базовых моделей для предложенной задачи. Кроме того, чтобы подчеркнуть важность моделирования визуальности текста, мы проводим качественный анализ систем генерации изображений из текста, таких как DALL-E.
English
Visual text evokes an image in a person's mind, while non-visual text fails
to do so. A method to automatically detect visualness in text will unlock the
ability to augment text with relevant images, as neural text-to-image
generation and retrieval models operate on the implicit assumption that the
input text is visual in nature. We curate a dataset of 3,620 English sentences
and their visualness scores provided by multiple human annotators.
Additionally, we use documents that contain text and visual assets to create a
distantly supervised corpus of document text and associated images. We also
propose a fine-tuning strategy that adapts large vision-language models like
CLIP that assume a one-to-one correspondence between text and image to the task
of scoring text visualness from text input alone. Our strategy involves
modifying the model's contrastive learning objective to map text identified as
non-visual to a common NULL image while matching visual text to their
corresponding images in the document. We evaluate the proposed approach on its
ability to (i) classify visual and non-visual text accurately, and (ii) attend
over words that are identified as visual in psycholinguistic studies. Empirical
evaluation indicates that our approach performs better than several heuristics
and baseline models for the proposed task. Furthermore, to highlight the
importance of modeling the visualness of text, we conduct qualitative analyses
of text-to-image generation systems like DALL-E.