WikiWeb2M: Um Conjunto de Dados Multimodal de Páginas da Wikipedia

Resumo

As páginas da web têm sido um recurso valioso para tarefas de linguagem e visão-linguagem. No entanto, apenas partes das páginas são mantidas: pares de imagem-legenda, artigos de texto longo ou HTML bruto, nunca todos em um só lugar. Como resultado, as tarefas relacionadas a páginas da web receberam pouca atenção, e os dados estruturados de imagem-texto foram subutilizados. Para estudar a compreensão multimodal de páginas da web, introduzimos o conjunto Wikipedia Webpage 2M (WikiWeb2M); o primeiro a reter o conjunto completo de imagens, texto e dados de estrutura disponíveis em uma página. O WikiWeb2M pode ser usado para tarefas como geração de descrição de página, resumo de seção e legendagem contextual de imagens.

English

Webpages have been a rich resource for language and vision-language tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite; the first to retain the full set of images, text, and structure data available in a page. WikiWeb2M can be used for tasks like page description generation, section summarization, and contextual image captioning.

WikiWeb2M: Um Conjunto de Dados Multimodal de Páginas da Wikipedia

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

Resumo

Support