Een Suite van Generatieve Taken voor Multi-Level Multimodale Webpagina-begrip
A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding
May 5, 2023
Auteurs: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI
Samenvatting
Webpagina's zijn een rijke en schaalbare bron geweest voor visie-taal- en alleen-taaltaken. Toch worden slechts delen van webpagina's bewaard: afbeelding-bijschriftparen, lange tekstartikelen of ruwe HTML, nooit alles op één plek. Hierdoor hebben taken gerelateerd aan webpagina's weinig aandacht gekregen en is gestructureerde beeld-tekstdata onderbenut gebleven. Om multimodale webpagina-begrip te bestuderen, introduceren we de Wikipedia Webpage suite (WikiWeb2M) van 2 miljoen pagina's. We verifiëren het nut ervan aan de hand van drie generatieve taken: paginabeschrijving generatie, sectiesamenvatting en contextuele afbeelding-bijschrijving. We ontwerpen een nieuw aandachtmechanisme genaamd Prefix Global, dat de meest relevante afbeeldingen en tekstinhoud selecteert als globale tokens om de rest van de webpagina voor context te benaderen. Door de paginastructuur te gebruiken om dergelijke tokens te scheiden, presteert het beter dan volledige aandacht met een lagere computationele complexiteit. Experimenten tonen aan dat de nieuwe annotaties van WikiWeb2M de taakprestaties verbeteren in vergelijking met data uit eerder werk. We nemen ook ablatieonderzoeken op naar sequentielengte, invoerkenmerken en modelgrootte.
English
Webpages have been a rich, scalable resource for vision-language and language
only tasks. Yet only pieces of webpages are kept: image-caption pairs, long
text articles, or raw HTML, never all in one place. Webpage tasks have
resultingly received little attention and structured image-text data left
underused. To study multimodal webpage understanding, we introduce the
Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three
generative tasks: page description generation, section summarization, and
contextual image captioning. We design a novel attention mechanism Prefix
Global, which selects the most relevant image and text content as global tokens
to attend to the rest of the webpage for context. By using page structure to
separate such tokens, it performs better than full attention with lower
computational complexity. Experiments show that the new annotations from
WikiWeb2M improve task performance compared to data from prior work. We also
include ablations on sequence length, input features, and model size.