WikiWeb2M : Un ensemble de données multimodales de Wikipédia au niveau des pages

Résumé

Les pages web constituent une ressource riche pour les tâches linguistiques et vision-langage. Cependant, seuls des fragments de pages web sont conservés : des paires image-légende, des articles textuels longs ou du HTML brut, jamais tous ensemble au même endroit. Par conséquent, les tâches liées aux pages web ont reçu peu d'attention, et les données structurées image-texte sont sous-utilisées. Pour étudier la compréhension multimodale des pages web, nous introduisons la suite Wikipedia Webpage 2M (WikiWeb2M) ; la première à conserver l'ensemble complet des images, du texte et des données structurelles disponibles dans une page. WikiWeb2M peut être utilisée pour des tâches telles que la génération de descriptions de pages, la synthèse de sections et la création de légendes d'images contextuelles.

English

Webpages have been a rich resource for language and vision-language tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite; the first to retain the full set of images, text, and structure data available in a page. WikiWeb2M can be used for tasks like page description generation, section summarization, and contextual image captioning.

WikiWeb2M : Un ensemble de données multimodales de Wikipédia au niveau des pages

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

Résumé

Support