Een Suite van Generatieve Taken voor Multi-Level Multimodale Webpagina-begrip

Samenvatting

Webpagina's zijn een rijke en schaalbare bron geweest voor visie-taal- en alleen-taaltaken. Toch worden slechts delen van webpagina's bewaard: afbeelding-bijschriftparen, lange tekstartikelen of ruwe HTML, nooit alles op één plek. Hierdoor hebben taken gerelateerd aan webpagina's weinig aandacht gekregen en is gestructureerde beeld-tekstdata onderbenut gebleven. Om multimodale webpagina-begrip te bestuderen, introduceren we de Wikipedia Webpage suite (WikiWeb2M) van 2 miljoen pagina's. We verifiëren het nut ervan aan de hand van drie generatieve taken: paginabeschrijving generatie, sectiesamenvatting en contextuele afbeelding-bijschrijving. We ontwerpen een nieuw aandachtmechanisme genaamd Prefix Global, dat de meest relevante afbeeldingen en tekstinhoud selecteert als globale tokens om de rest van de webpagina voor context te benaderen. Door de paginastructuur te gebruiken om dergelijke tokens te scheiden, presteert het beter dan volledige aandacht met een lagere computationele complexiteit. Experimenten tonen aan dat de nieuwe annotaties van WikiWeb2M de taakprestaties verbeteren in vergelijking met data uit eerder werk. We nemen ook ablatieonderzoeken op naar sequentielengte, invoerkenmerken en modelgrootte.

English

Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Experiments show that the new annotations from WikiWeb2M improve task performance compared to data from prior work. We also include ablations on sequence length, input features, and model size.

Een Suite van Generatieve Taken voor Multi-Level Multimodale Webpagina-begrip

A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

Samenvatting

Support