WikiWeb2M: Um Conjunto de Dados Multimodal de Páginas da Wikipedia
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
May 9, 2023
Autores: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI
Resumo
As páginas da web têm sido um recurso valioso para tarefas de linguagem e visão-linguagem. No entanto, apenas partes das páginas são mantidas: pares de imagem-legenda, artigos de texto longo ou HTML bruto, nunca todos em um só lugar. Como resultado, as tarefas relacionadas a páginas da web receberam pouca atenção, e os dados estruturados de imagem-texto foram subutilizados. Para estudar a compreensão multimodal de páginas da web, introduzimos o conjunto Wikipedia Webpage 2M (WikiWeb2M); o primeiro a reter o conjunto completo de imagens, texto e dados de estrutura disponíveis em uma página. O WikiWeb2M pode ser usado para tarefas como geração de descrição de página, resumo de seção e legendagem contextual de imagens.
English
Webpages have been a rich resource for language and vision-language tasks.
Yet only pieces of webpages are kept: image-caption pairs, long text articles,
or raw HTML, never all in one place. Webpage tasks have resultingly received
little attention and structured image-text data underused. To study multimodal
webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite;
the first to retain the full set of images, text, and structure data available
in a page. WikiWeb2M can be used for tasks like page description generation,
section summarization, and contextual image captioning.