ChatPaper.aiChatPaper

WikiWeb2M: ページレベル多モーダルWikipediaデータセット

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

May 9, 2023
著者: Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
cs.AI

要旨

ウェブページは、言語および視覚-言語タスクにおいて豊富なリソースとなってきました。しかし、ウェブページの断片のみが保持されることが一般的です:画像とキャプションのペア、長文記事、または生のHTMLであり、これらすべてが一箇所にまとめられることはありませんでした。その結果、ウェブページタスクはほとんど注目されておらず、構造化された画像-テキストデータは十分に活用されていません。マルチモーダルなウェブページ理解を研究するために、私たちはWikipedia Webpage 2M(WikiWeb2M)スイートを導入します。これは、ページ内で利用可能な画像、テキスト、および構造データの完全なセットを保持する初めてのデータセットです。WikiWeb2Mは、ページ記述生成、セクション要約、文脈に基づく画像キャプション生成などのタスクに使用できます。
English
Webpages have been a rich resource for language and vision-language tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite; the first to retain the full set of images, text, and structure data available in a page. WikiWeb2M can be used for tasks like page description generation, section summarization, and contextual image captioning.
PDF10December 15, 2024