WikiWeb2M : Un ensemble de données multimodales de Wikipédia au niveau des pages
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
May 9, 2023
Auteurs: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI
Résumé
Les pages web constituent une ressource riche pour les tâches linguistiques et vision-langage. Cependant, seuls des fragments de pages web sont conservés : des paires image-légende, des articles textuels longs ou du HTML brut, jamais tous ensemble au même endroit. Par conséquent, les tâches liées aux pages web ont reçu peu d'attention, et les données structurées image-texte sont sous-utilisées. Pour étudier la compréhension multimodale des pages web, nous introduisons la suite Wikipedia Webpage 2M (WikiWeb2M) ; la première à conserver l'ensemble complet des images, du texte et des données structurelles disponibles dans une page. WikiWeb2M peut être utilisée pour des tâches telles que la génération de descriptions de pages, la synthèse de sections et la création de légendes d'images contextuelles.
English
Webpages have been a rich resource for language and vision-language tasks.
Yet only pieces of webpages are kept: image-caption pairs, long text articles,
or raw HTML, never all in one place. Webpage tasks have resultingly received
little attention and structured image-text data underused. To study multimodal
webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite;
the first to retain the full set of images, text, and structure data available
in a page. WikiWeb2M can be used for tasks like page description generation,
section summarization, and contextual image captioning.