WikiWeb2M: Een Paginaniveau Multimodaal Wikipedia-Dataset

Samenvatting

Webpagina's zijn een rijke bron geweest voor taken op het gebied van taal en visueel-taalkundige taken. Toch worden slechts fragmenten van webpagina's bewaard: afbeelding-bijschriftparen, lange tekstartikelen, of ruwe HTML, nooit alles op één plek. Hierdoor hebben taken gerelateerd aan webpagina's weinig aandacht gekregen en is gestructureerde beeld-tekstdata onderbenut. Om multimodale webpagina-begrip te bestuderen, introduceren we de Wikipedia Webpage 2M (WikiWeb2M) suite; de eerste die de volledige set van afbeeldingen, tekst en structuurdata die beschikbaar zijn op een pagina behoudt. WikiWeb2M kan worden gebruikt voor taken zoals het genereren van paginabeschrijvingen, sectiesamenvattingen en contextuele afbeelding-bijschriften.

English

Webpages have been a rich resource for language and vision-language tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite; the first to retain the full set of images, text, and structure data available in a page. WikiWeb2M can be used for tasks like page description generation, section summarization, and contextual image captioning.

WikiWeb2M: Een Paginaniveau Multimodaal Wikipedia-Dataset

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

Samenvatting

Support