OmniCorpus: Een Verenigde Multimodale Corpus van 10 Miljard-Niveau Afbeeldingen Verweven met Tekst
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
June 12, 2024
Auteurs: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai
cs.AI
Samenvatting
Afbeelding-tekst interleaved data, bestaande uit meerdere afbeeldingen en teksten gerangschikt in een natuurlijk documentformaat, sluit aan bij het presentatieparadigma van internetdata en lijkt sterk op menselijke leesgewoonten. Recente studies hebben aangetoond dat dergelijke data multimodale in-context learning bevordert en de mogelijkheden van grote taalmodellen behoudt tijdens multimodale fine-tuning. Echter beperken de beperkte schaal en diversiteit van huidige afbeelding-tekst interleaved data de ontwikkeling van multimodale grote taalmodellen. In dit artikel introduceren we OmniCorpus, een afbeelding-tekst interleaved dataset van 10 miljard schaal. Met behulp van een efficiënte data-engine filteren en extraheren we grootschalige hoogwaardige documenten, die 8,6 miljard afbeeldingen en 1.696 miljard teksttokens bevatten. Vergeleken met tegenhangers (bijv. MMC4, OBELICS) heeft onze dataset 1) een 15 keer grotere schaal terwijl de goede data-kwaliteit behouden blijft; 2) meer diverse bronnen, waaronder zowel Engelstalige als niet-Engelstalige websites en video-gerichte websites; 3) is flexibeler, eenvoudig degradeerbaar van een afbeelding-tekst interleaved formaat naar een pure tekstcorpus en afbeelding-tekst paren. Door middel van uitgebreide analyse en experimenten valideren we de kwaliteit, bruikbaarheid en effectiviteit van de voorgestelde dataset. We hopen dat dit een solide datafundament kan bieden voor toekomstig onderzoek naar multimodale modellen. Code en data zijn vrijgegeven op https://github.com/OpenGVLab/OmniCorpus.
English
Image-text interleaved data, consisting of multiple images and texts arranged
in a natural document format, aligns with the presentation paradigm of internet
data and closely resembles human reading habits. Recent studies have shown that
such data aids multimodal in-context learning and maintains the capabilities of
large language models during multimodal fine-tuning. However, the limited scale
and diversity of current image-text interleaved data restrict the development
of multimodal large language models. In this paper, we introduce OmniCorpus, a
10 billion-scale image-text interleaved dataset. Using an efficient data
engine, we filter and extract large-scale high-quality documents, which contain
8.6 billion images and 1,696 billion text tokens. Compared to counterparts
(e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while
maintaining good data quality; 2) features more diverse sources, including both
English and non-English websites as well as video-centric websites; 3) is more
flexible, easily degradable from an image-text interleaved format to pure text
corpus and image-text pairs. Through comprehensive analysis and experiments, we
validate the quality, usability, and effectiveness of the proposed dataset. We
hope this could provide a solid data foundation for future multimodal model
research. Code and data are released at
https://github.com/OpenGVLab/OmniCorpus.