ChatPaper.aiChatPaper

Une Suite de Tâches Génératives pour la Compréhension Multiniveau et Multimodale des Pages Web

A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

May 5, 2023
Auteurs: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI

Résumé

Les pages web ont constitué une ressource riche et évolutive pour les tâches de vision-langage et de langage pur. Cependant, seuls des fragments de pages web sont conservés : des paires image-légende, des articles textuels longs ou du HTML brut, jamais tous ensemble. Par conséquent, les tâches liées aux pages web ont reçu peu d'attention, et les données structurées image-texte sont restées sous-utilisées. Pour étudier la compréhension multimodale des pages web, nous introduisons la suite Wikipedia Webpage (WikiWeb2M) comprenant 2 millions de pages. Nous vérifions son utilité sur trois tâches génératives : la génération de descriptions de pages, la synthèse de sections et la génération de légendes d'images contextuelles. Nous concevons un nouveau mécanisme d'attention appelé Prefix Global, qui sélectionne le contenu image et texte le plus pertinent comme tokens globaux pour prendre en compte le reste de la page comme contexte. En utilisant la structure de la page pour séparer ces tokens, il surpasse l'attention complète avec une complexité computationnelle réduite. Les expériences montrent que les nouvelles annotations de WikiWeb2M améliorent les performances des tâches par rapport aux données des travaux précédents. Nous incluons également des ablations sur la longueur des séquences, les caractéristiques d'entrée et la taille du modèle.
English
Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Experiments show that the new annotations from WikiWeb2M improve task performance compared to data from prior work. We also include ablations on sequence length, input features, and model size.
PDF14December 15, 2024