Набор генеративных задач для многоуровневого мультимодального понимания веб-страниц

Аннотация

Веб-страницы представляют собой богатый и масштабируемый ресурс для задач, связанных с обработкой визуальной и текстовой информации, а также только текстовых задач. Однако сохраняются лишь отдельные элементы веб-страниц: пары изображение-подпись, длинные текстовые статьи или сырой HTML, но никогда все вместе. В результате задачи, связанные с веб-страницами, получают мало внимания, а структурированные данные изображений и текста остаются недостаточно используемыми. Для изучения мультимодального понимания веб-страниц мы представляем набор Wikipedia Webpage (WikiWeb2M), содержащий 2 миллиона страниц. Мы проверяем его полезность на трех генеративных задачах: генерация описания страницы, суммирование разделов и контекстное создание подписей к изображениям. Мы разрабатываем новый механизм внимания Prefix Global, который выбирает наиболее релевантные изображения и текстовые элементы в качестве глобальных токенов для учета контекста остальной части веб-страницы. Используя структуру страницы для разделения таких токенов, он работает лучше, чем полное внимание, при меньшей вычислительной сложности. Эксперименты показывают, что новые аннотации из WikiWeb2M улучшают производительность задач по сравнению с данными из предыдущих работ. Мы также проводим исследования влияния длины последовательности, входных признаков и размера модели.

English

Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Experiments show that the new annotations from WikiWeb2M improve task performance compared to data from prior work. We also include ablations on sequence length, input features, and model size.

Набор генеративных задач для многоуровневого мультимодального понимания веб-страниц

A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

Аннотация

Support