Um Conjunto de Tarefas Gerativas para a Compreensão Multinível e Multimodal de Páginas Web

Resumo

As páginas da web têm sido um recurso rico e escalável para tarefas de visão-linguagem e apenas linguagem. No entanto, apenas partes das páginas são mantidas: pares de imagem-legenda, artigos de texto longo ou HTML bruto, nunca todos em um só lugar. Como resultado, as tarefas relacionadas a páginas da web receberam pouca atenção, e os dados estruturados de imagem-texto foram subutilizados. Para estudar a compreensão multimodal de páginas da web, introduzimos o conjunto Wikipedia Webpage (WikiWeb2M) de 2 milhões de páginas. Verificamos sua utilidade em três tarefas generativas: geração de descrição de página, sumarização de seção e legendagem contextual de imagens. Projetamos um novo mecanismo de atenção chamado Prefix Global, que seleciona o conteúdo de imagem e texto mais relevante como tokens globais para atender ao restante da página como contexto. Ao usar a estrutura da página para separar esses tokens, ele tem um desempenho melhor do que a atenção completa, com menor complexidade computacional. Os experimentos mostram que as novas anotações do WikiWeb2M melhoram o desempenho das tarefas em comparação com os dados de trabalhos anteriores. Também incluímos ablações sobre o comprimento da sequência, características de entrada e tamanho do modelo.

English

Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Experiments show that the new annotations from WikiWeb2M improve task performance compared to data from prior work. We also include ablations on sequence length, input features, and model size.

Um Conjunto de Tarefas Gerativas para a Compreensão Multinível e Multimodal de Páginas Web

A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

Resumo

Support