WikiWeb2M: Un Dataset Multimodale a Livello di Pagina di Wikipedia

Abstract

Le pagine web sono state una risorsa preziosa per i compiti di linguaggio e visione-linguaggio. Tuttavia, solo frammenti di pagine web vengono conservati: coppie immagine-didascalia, articoli di testo lunghi o HTML grezzo, mai tutti in un unico luogo. Di conseguenza, i compiti legati alle pagine web hanno ricevuto poca attenzione e i dati strutturati immagine-testo sono stati sottoutilizzati. Per studiare la comprensione multimodale delle pagine web, introduciamo la suite Wikipedia Webpage 2M (WikiWeb2M); la prima a conservare l'intero set di immagini, testo e dati strutturali disponibili in una pagina. WikiWeb2M può essere utilizzata per compiti come la generazione di descrizioni di pagine, la sintesi di sezioni e la creazione di didascalie contestuali per immagini.

English

Webpages have been a rich resource for language and vision-language tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite; the first to retain the full set of images, text, and structure data available in a page. WikiWeb2M can be used for tasks like page description generation, section summarization, and contextual image captioning.

WikiWeb2M: Un Dataset Multimodale a Livello di Pagina di Wikipedia

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

Abstract

Support