WikiWeb2M: Een Paginaniveau Multimodaal Wikipedia-Dataset
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
May 9, 2023
Auteurs: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI
Samenvatting
Webpagina's zijn een rijke bron geweest voor taken op het gebied van taal en visueel-taalkundige taken.
Toch worden slechts fragmenten van webpagina's bewaard: afbeelding-bijschriftparen, lange tekstartikelen,
of ruwe HTML, nooit alles op één plek. Hierdoor hebben taken gerelateerd aan webpagina's weinig aandacht gekregen en is gestructureerde beeld-tekstdata onderbenut. Om multimodale webpagina-begrip te bestuderen, introduceren we de Wikipedia Webpage 2M (WikiWeb2M) suite;
de eerste die de volledige set van afbeeldingen, tekst en structuurdata die beschikbaar zijn op een pagina behoudt. WikiWeb2M kan worden gebruikt voor taken zoals het genereren van paginabeschrijvingen, sectiesamenvattingen en contextuele afbeelding-bijschriften.
English
Webpages have been a rich resource for language and vision-language tasks.
Yet only pieces of webpages are kept: image-caption pairs, long text articles,
or raw HTML, never all in one place. Webpage tasks have resultingly received
little attention and structured image-text data underused. To study multimodal
webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite;
the first to retain the full set of images, text, and structure data available
in a page. WikiWeb2M can be used for tasks like page description generation,
section summarization, and contextual image captioning.