Una Suite di Attività Generative per la Comprensione Multilivello e Multimodale delle Pagine Web
A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding
May 5, 2023
Autori: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI
Abstract
Le pagine web sono state una risorsa ricca e scalabile per attività di visione-linguaggio e solo linguaggio. Tuttavia, vengono conservati solo frammenti di pagine web: coppie immagine-didascalia, articoli di testo lunghi o HTML grezzo, mai tutti nello stesso luogo. Di conseguenza, i compiti legati alle pagine web hanno ricevuto poca attenzione e i dati strutturati immagine-testo sono rimasti sottoutilizzati. Per studiare la comprensione multimodale delle pagine web, introduciamo la suite Wikipedia Webpage (WikiWeb2M) di 2 milioni di pagine. Verifichiamo la sua utilità su tre compiti generativi: generazione di descrizioni di pagine, riassunto di sezioni e creazione di didascalie contestuali per immagini. Progettiamo un nuovo meccanismo di attenzione chiamato Prefix Global, che seleziona i contenuti di immagine e testo più rilevanti come token globali per prestare attenzione al resto della pagina web come contesto. Utilizzando la struttura della pagina per separare tali token, esso performa meglio dell'attenzione completa con una complessità computazionale inferiore. Gli esperimenti dimostrano che le nuove annotazioni di WikiWeb2M migliorano le prestazioni dei compiti rispetto ai dati di lavori precedenti. Includiamo anche ablazioni sulla lunghezza delle sequenze, le caratteristiche di input e la dimensione del modello.
English
Webpages have been a rich, scalable resource for vision-language and language
only tasks. Yet only pieces of webpages are kept: image-caption pairs, long
text articles, or raw HTML, never all in one place. Webpage tasks have
resultingly received little attention and structured image-text data left
underused. To study multimodal webpage understanding, we introduce the
Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three
generative tasks: page description generation, section summarization, and
contextual image captioning. We design a novel attention mechanism Prefix
Global, which selects the most relevant image and text content as global tokens
to attend to the rest of the webpage for context. By using page structure to
separate such tokens, it performs better than full attention with lower
computational complexity. Experiments show that the new annotations from
WikiWeb2M improve task performance compared to data from prior work. We also
include ablations on sequence length, input features, and model size.