ChatPaper.aiChatPaper

Eine Sammlung generativer Aufgaben für mehrstufiges multimodales Webseitenverständnis

A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

May 5, 2023
Autoren: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI

Zusammenfassung

Webseiten stellen eine umfangreiche und skalierbare Ressource für visuell-sprachliche und rein sprachliche Aufgaben dar. Allerdings werden nur Teile von Webseiten gespeichert: Bild-Beschriftungs-Paare, lange Textartikel oder rohes HTML, jedoch nie alles an einem Ort. Dadurch haben Aufgaben im Zusammenhang mit Webseiten bisher wenig Aufmerksamkeit erhalten, und strukturierte Bild-Text-Daten bleiben weitgehend ungenutzt. Um das multimodale Verständnis von Webseiten zu untersuchen, führen wir die Wikipedia Webpage Suite (WikiWeb2M) mit 2 Millionen Seiten ein. Wir überprüfen ihren Nutzen anhand von drei generativen Aufgaben: der Erstellung von Seitenbeschreibungen, der Zusammenfassung von Abschnitten und der kontextbezogenen Bildbeschriftung. Wir entwickeln einen neuartigen Aufmerksamkeitsmechanismus, Prefix Global, der die relevantesten Bild- und Textinhalte als globale Token auswählt, um den Rest der Webseite im Kontext zu berücksichtigen. Indem die Seitenstruktur genutzt wird, um solche Token zu separieren, erzielt dieser Mechanismus bessere Ergebnisse als vollständige Aufmerksamkeit bei geringerer Rechenkomplexität. Experimente zeigen, dass die neuen Annotationen aus WikiWeb2M die Aufgabenleistung im Vergleich zu Daten aus früheren Arbeiten verbessern. Wir führen auch Ablationen zur Sequenzlänge, den Eingabemerkmalen und der Modellgröße durch.
English
Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) of 2M pages. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Experiments show that the new annotations from WikiWeb2M improve task performance compared to data from prior work. We also include ablations on sequence length, input features, and model size.
PDF14December 15, 2024