WikiWeb2M: Ein seitenbasiertes multimodales Wikipedia-Datenset
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
May 9, 2023
Autoren: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI
Zusammenfassung
Webseiten stellen eine reichhaltige Ressource für Sprach- und Vision-Sprach-Aufgaben dar. Bisher wurden jedoch nur Teile von Webseiten gespeichert: Bild-Beschriftungs-Paare, lange Textartikel oder rohes HTML, jedoch nie alles an einem Ort. Infolgedessen haben Webseiten-Aufgaben wenig Aufmerksamkeit erhalten, und strukturierte Bild-Text-Daten wurden untergenutzt. Um das multimodale Verständnis von Webseiten zu untersuchen, führen wir die Wikipedia Webpage 2M (WikiWeb2M) Suite ein; die erste, die den vollständigen Satz von Bildern, Texten und Strukturdaten einer Seite beibehält. WikiWeb2M kann für Aufgaben wie die Generierung von Seitenbeschreibungen, die Zusammenfassung von Abschnitten und die kontextbezogene Bildbeschriftung verwendet werden.
English
Webpages have been a rich resource for language and vision-language tasks.
Yet only pieces of webpages are kept: image-caption pairs, long text articles,
or raw HTML, never all in one place. Webpage tasks have resultingly received
little attention and structured image-text data underused. To study multimodal
webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite;
the first to retain the full set of images, text, and structure data available
in a page. WikiWeb2M can be used for tasks like page description generation,
section summarization, and contextual image captioning.