Una Suite di Attività Generative per la Comprensione Multilivello e Multimodale delle Pagine Web

Abstract

Le pagine web sono state una risorsa ricca e scalabile per attività di visione-linguaggio e solo linguaggio. Tuttavia, vengono conservati solo frammenti di pagine web: coppie immagine-didascalia, articoli di testo lunghi o HTML grezzo, mai tutti nello stesso luogo. Di conseguenza, i compiti legati alle pagine web hanno ricevuto poca attenzione e i dati strutturati immagine-testo sono rimasti sottoutilizzati. Per studiare la comprensione multimodale delle pagine web, introduciamo la suite Wikipedia Webpage (WikiWeb2M) di 2 milioni di pagine. Verifichiamo la sua utilità su tre compiti generativi: generazione di descrizioni di pagine, riassunto di sezioni e creazione di didascalie contestuali per immagini. Progettiamo un nuovo meccanismo di attenzione chiamato Prefix Global, che seleziona i contenuti di immagine e testo più rilevanti come token globali per prestare attenzione al resto della pagina web come contesto. Utilizzando la struttura della pagina per separare tali token, esso performa meglio dell'attenzione completa con una complessità computazionale inferiore. Gli esperimenti dimostrano che le nuove annotazioni di WikiWeb2M migliorano le prestazioni dei compiti rispetto ai dati di lavori precedenti. Includiamo anche ablazioni sulla lunghezza delle sequenze, le caratteristiche di input e la dimensione del modello.

English

Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Experiments show that the new annotations from WikiWeb2M improve task performance compared to data from prior work. We also include ablations on sequence length, input features, and model size.

Una Suite di Attività Generative per la Comprensione Multilivello e Multimodale delle Pagine Web

A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

Abstract

Support