Набор генеративных задач для многоуровневого мультимодального понимания веб-страниц
A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding
May 5, 2023
Авторы: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI
Аннотация
Веб-страницы представляют собой богатый и масштабируемый ресурс для задач, связанных с обработкой визуальной и текстовой информации, а также только текстовых задач. Однако сохраняются лишь отдельные элементы веб-страниц: пары изображение-подпись, длинные текстовые статьи или сырой HTML, но никогда все вместе. В результате задачи, связанные с веб-страницами, получают мало внимания, а структурированные данные изображений и текста остаются недостаточно используемыми. Для изучения мультимодального понимания веб-страниц мы представляем набор Wikipedia Webpage (WikiWeb2M), содержащий 2 миллиона страниц. Мы проверяем его полезность на трех генеративных задачах: генерация описания страницы, суммирование разделов и контекстное создание подписей к изображениям. Мы разрабатываем новый механизм внимания Prefix Global, который выбирает наиболее релевантные изображения и текстовые элементы в качестве глобальных токенов для учета контекста остальной части веб-страницы. Используя структуру страницы для разделения таких токенов, он работает лучше, чем полное внимание, при меньшей вычислительной сложности. Эксперименты показывают, что новые аннотации из WikiWeb2M улучшают производительность задач по сравнению с данными из предыдущих работ. Мы также проводим исследования влияния длины последовательности, входных признаков и размера модели.
English
Webpages have been a rich, scalable resource for vision-language and language
only tasks. Yet only pieces of webpages are kept: image-caption pairs, long
text articles, or raw HTML, never all in one place. Webpage tasks have
resultingly received little attention and structured image-text data left
underused. To study multimodal webpage understanding, we introduce the
Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three
generative tasks: page description generation, section summarization, and
contextual image captioning. We design a novel attention mechanism Prefix
Global, which selects the most relevant image and text content as global tokens
to attend to the rest of the webpage for context. By using page structure to
separate such tokens, it performs better than full attention with lower
computational complexity. Experiments show that the new annotations from
WikiWeb2M improve task performance compared to data from prior work. We also
include ablations on sequence length, input features, and model size.