WikiWeb2M: Мультимодальный набор данных Wikipedia на уровне страниц
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
May 9, 2023
Авторы: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI
Аннотация
Веб-страницы представляют собой богатый ресурс для задач, связанных с обработкой языка и мультимодальных данных. Однако обычно сохраняются лишь отдельные элементы веб-страниц: пары изображение-описание, длинные текстовые статьи или исходный HTML-код, но никогда всё вместе. В результате задачи, связанные с веб-страницами, получают мало внимания, а структурированные данные, содержащие изображения и текст, остаются недоиспользованными. Для изучения мультимодального понимания веб-страниц мы представляем набор данных Wikipedia Webpage 2M (WikiWeb2M) — первый, который сохраняет полный набор изображений, текста и структурных данных, доступных на странице. WikiWeb2M может быть использован для таких задач, как генерация описаний страниц, суммирование разделов и контекстное создание подписей к изображениям.
English
Webpages have been a rich resource for language and vision-language tasks.
Yet only pieces of webpages are kept: image-caption pairs, long text articles,
or raw HTML, never all in one place. Webpage tasks have resultingly received
little attention and structured image-text data underused. To study multimodal
webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite;
the first to retain the full set of images, text, and structure data available
in a page. WikiWeb2M can be used for tasks like page description generation,
section summarization, and contextual image captioning.