WikiWeb2M: Un conjunto de datos multimodal de Wikipedia a nivel de página
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
May 9, 2023
Autores: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI
Resumen
Las páginas web han sido un recurso valioso para tareas de lenguaje y visión-lenguaje. Sin embargo, solo se conservan fragmentos de estas páginas: pares de imagen-texto, artículos de texto extenso o HTML crudo, pero nunca todos estos elementos en un mismo lugar. Como resultado, las tareas relacionadas con páginas web han recibido poca atención y los datos estructurados de imagen-texto han sido subutilizados. Para estudiar la comprensión multimodal de páginas web, presentamos el conjunto Wikipedia Webpage 2M (WikiWeb2M); el primero en conservar el conjunto completo de imágenes, texto y datos de estructura disponibles en una página. WikiWeb2M puede utilizarse para tareas como la generación de descripciones de páginas, la resumen de secciones y la generación de subtítulos contextuales de imágenes.
English
Webpages have been a rich resource for language and vision-language tasks.
Yet only pieces of webpages are kept: image-caption pairs, long text articles,
or raw HTML, never all in one place. Webpage tasks have resultingly received
little attention and structured image-text data underused. To study multimodal
webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite;
the first to retain the full set of images, text, and structure data available
in a page. WikiWeb2M can be used for tasks like page description generation,
section summarization, and contextual image captioning.