OmniCorpus: Un Corpus Multimodale Unificato di 10 Miliardi di Immagini Intervallate da Testo
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
June 12, 2024
Autori: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai
cs.AI
Abstract
I dati intervallati immagine-testo, composti da più immagini e testi disposti in un formato documentale naturale, si allineano con il paradigma di presentazione dei dati su internet e si avvicinano molto alle abitudini di lettura umana. Studi recenti hanno dimostrato che tali dati favoriscono l'apprendimento multimodale in contesto e mantengono le capacità dei grandi modelli linguistici durante la messa a punto multimodale. Tuttavia, la scala limitata e la scarsa diversità degli attuali dati intervallati immagine-testo ostacolano lo sviluppo di grandi modelli linguistici multimodali. In questo articolo, presentiamo OmniCorpus, un dataset intervallato immagine-testo su scala di 10 miliardi. Utilizzando un motore di dati efficiente, filtriamo ed estraiamo documenti di alta qualità su larga scala, che contengono 8,6 miliardi di immagini e 1.696 miliardi di token di testo. Rispetto alle controparti (ad esempio, MMC4, OBELICS), il nostro dataset 1) ha una scala 15 volte maggiore mantenendo una buona qualità dei dati; 2) presenta fonti più diversificate, inclusi siti web in inglese e non in inglese, nonché siti web incentrati sui video; 3) è più flessibile, facilmente degradabile da un formato intervallato immagine-testo a un corpus di testo puro e coppie immagine-testo. Attraverso un'analisi e sperimentazioni complete, convalidiamo la qualità, l'usabilità e l'efficacia del dataset proposto. Speriamo che questo possa fornire una solida base di dati per la futura ricerca sui modelli multimodali. Codice e dati sono rilasciati su https://github.com/OpenGVLab/OmniCorpus.
English
Image-text interleaved data, consisting of multiple images and texts arranged
in a natural document format, aligns with the presentation paradigm of internet
data and closely resembles human reading habits. Recent studies have shown that
such data aids multimodal in-context learning and maintains the capabilities of
large language models during multimodal fine-tuning. However, the limited scale
and diversity of current image-text interleaved data restrict the development
of multimodal large language models. In this paper, we introduce OmniCorpus, a
10 billion-scale image-text interleaved dataset. Using an efficient data
engine, we filter and extract large-scale high-quality documents, which contain
8.6 billion images and 1,696 billion text tokens. Compared to counterparts
(e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while
maintaining good data quality; 2) features more diverse sources, including both
English and non-English websites as well as video-centric websites; 3) is more
flexible, easily degradable from an image-text interleaved format to pure text
corpus and image-text pairs. Through comprehensive analysis and experiments, we
validate the quality, usability, and effectiveness of the proposed dataset. We
hope this could provide a solid data foundation for future multimodal model
research. Code and data are released at
https://github.com/OpenGVLab/OmniCorpus.