WikiWeb2M: Ein seitenbasiertes multimodales Wikipedia-Datenset

Zusammenfassung

Webseiten stellen eine reichhaltige Ressource für Sprach- und Vision-Sprach-Aufgaben dar. Bisher wurden jedoch nur Teile von Webseiten gespeichert: Bild-Beschriftungs-Paare, lange Textartikel oder rohes HTML, jedoch nie alles an einem Ort. Infolgedessen haben Webseiten-Aufgaben wenig Aufmerksamkeit erhalten, und strukturierte Bild-Text-Daten wurden untergenutzt. Um das multimodale Verständnis von Webseiten zu untersuchen, führen wir die Wikipedia Webpage 2M (WikiWeb2M) Suite ein; die erste, die den vollständigen Satz von Bildern, Texten und Strukturdaten einer Seite beibehält. WikiWeb2M kann für Aufgaben wie die Generierung von Seitenbeschreibungen, die Zusammenfassung von Abschnitten und die kontextbezogene Bildbeschriftung verwendet werden.

English

Webpages have been a rich resource for language and vision-language tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite; the first to retain the full set of images, text, and structure data available in a page. WikiWeb2M can be used for tasks like page description generation, section summarization, and contextual image captioning.

WikiWeb2M: Ein seitenbasiertes multimodales Wikipedia-Datenset

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

Zusammenfassung

Support