ChatPaper.aiChatPaper

Un Conjunto de Tareas Generativas para la Comprensión Multinivel y Multimodal de Páginas Web

A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

May 5, 2023
Autores: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI

Resumen

Las páginas web han sido un recurso rico y escalable para tareas de visión-lenguaje y solo lenguaje. Sin embargo, solo se conservan fragmentos de las páginas web: pares de imagen-texto, artículos de texto largo o HTML crudo, nunca todos en un mismo lugar. Como resultado, las tareas relacionadas con páginas web han recibido poca atención y los datos estructurados de imagen-texto han sido subutilizados. Para estudiar la comprensión multimodal de páginas web, presentamos el conjunto Wikipedia Webpage (WikiWeb2M) de 2 millones de páginas. Verificamos su utilidad en tres tareas generativas: generación de descripciones de páginas, resumen de secciones y subtitulación contextual de imágenes. Diseñamos un nuevo mecanismo de atención llamado Prefix Global, que selecciona el contenido de imagen y texto más relevante como tokens globales para atender al resto de la página web en busca de contexto. Al utilizar la estructura de la página para separar dichos tokens, este mecanismo supera a la atención completa con una menor complejidad computacional. Los experimentos muestran que las nuevas anotaciones de WikiWeb2M mejoran el rendimiento de las tareas en comparación con los datos de trabajos previos. También incluimos análisis sobre la longitud de secuencias, características de entrada y tamaño del modelo.
English
Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Experiments show that the new annotations from WikiWeb2M improve task performance compared to data from prior work. We also include ablations on sequence length, input features, and model size.
PDF14December 15, 2024