WikiWeb2M: Un conjunto de datos multimodal de Wikipedia a nivel de página

Resumen

Las páginas web han sido un recurso valioso para tareas de lenguaje y visión-lenguaje. Sin embargo, solo se conservan fragmentos de estas páginas: pares de imagen-texto, artículos de texto extenso o HTML crudo, pero nunca todos estos elementos en un mismo lugar. Como resultado, las tareas relacionadas con páginas web han recibido poca atención y los datos estructurados de imagen-texto han sido subutilizados. Para estudiar la comprensión multimodal de páginas web, presentamos el conjunto Wikipedia Webpage 2M (WikiWeb2M); el primero en conservar el conjunto completo de imágenes, texto y datos de estructura disponibles en una página. WikiWeb2M puede utilizarse para tareas como la generación de descripciones de páginas, la resumen de secciones y la generación de subtítulos contextuales de imágenes.

English

Webpages have been a rich resource for language and vision-language tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite; the first to retain the full set of images, text, and structure data available in a page. WikiWeb2M can be used for tasks like page description generation, section summarization, and contextual image captioning.

WikiWeb2M: Un conjunto de datos multimodal de Wikipedia a nivel de página

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

Resumen

Support