ChatPaper.aiChatPaper

OmniCorpus : Un corpus multimodal unifié de 10 milliards d'images entrelacées avec du texte

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

June 12, 2024
Auteurs: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai
cs.AI

Résumé

Les données intercalées image-texte, composées de multiples images et textes organisés dans un format de document naturel, s'alignent sur le paradigme de présentation des données internet et ressemblent étroitement aux habitudes de lecture humaines. Des études récentes ont montré que de telles données favorisent l'apprentissage multimodal en contexte et préservent les capacités des grands modèles de langage lors du réglage fin multimodal. Cependant, l'échelle limitée et la diversité des données intercalées image-texte actuelles restreignent le développement des grands modèles de langage multimodaux. Dans cet article, nous présentons OmniCorpus, un ensemble de données intercalées image-texte à l'échelle de 10 milliards. En utilisant un moteur de données efficace, nous filtrons et extrayons des documents de grande échelle et de haute qualité, contenant 8,6 milliards d'images et 1 696 milliards de tokens de texte. Comparé à ses homologues (par exemple, MMC4, OBELICS), notre ensemble de données 1) a une échelle 15 fois plus grande tout en maintenant une bonne qualité des données ; 2) présente des sources plus diversifiées, incluant des sites web en anglais et non anglais ainsi que des sites web centrés sur la vidéo ; 3) est plus flexible, pouvant facilement être dégradé d'un format intercalé image-texte à un corpus de texte pur et à des paires image-texte. À travers une analyse et des expériences approfondies, nous validons la qualité, l'utilisabilité et l'efficacité de l'ensemble de données proposé. Nous espérons que cela pourra fournir une base de données solide pour les futures recherches sur les modèles multimodaux. Le code et les données sont disponibles à l'adresse https://github.com/OpenGVLab/OmniCorpus.
English
Image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids multimodal in-context learning and maintains the capabilities of large language models during multimodal fine-tuning. However, the limited scale and diversity of current image-text interleaved data restrict the development of multimodal large language models. In this paper, we introduce OmniCorpus, a 10 billion-scale image-text interleaved dataset. Using an efficient data engine, we filter and extract large-scale high-quality documents, which contain 8.6 billion images and 1,696 billion text tokens. Compared to counterparts (e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while maintaining good data quality; 2) features more diverse sources, including both English and non-English websites as well as video-centric websites; 3) is more flexible, easily degradable from an image-text interleaved format to pure text corpus and image-text pairs. Through comprehensive analysis and experiments, we validate the quality, usability, and effectiveness of the proposed dataset. We hope this could provide a solid data foundation for future multimodal model research. Code and data are released at https://github.com/OpenGVLab/OmniCorpus.

Summary

AI-Generated Summary

PDF303December 6, 2024