ChatPaper.aiChatPaper

OmniCorpus:100億レベル画像とテキストを織り交ぜた統合マルチモーダルコーパス

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

June 12, 2024
著者: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai
cs.AI

要旨

画像とテキストが自然な文書形式で配置された画像-テキスト交互データは、インターネットデータの提示パラダイムに沿っており、人間の読書習慣に非常に近いものです。最近の研究では、このようなデータがマルチモーダルな文脈内学習を助け、マルチモーダルファインチューニング中の大規模言語モデルの能力を維持することが示されています。しかし、現在の画像-テキスト交互データの規模と多様性の限界が、マルチモーダル大規模言語モデルの発展を制約しています。本論文では、100億規模の画像-テキスト交互データセットであるOmniCorpusを紹介します。効率的なデータエンジンを使用して、大規模で高品質な文書をフィルタリングし抽出し、これには86億枚の画像と1兆6960億のテキストトークンが含まれています。比較対象(例:MMC4、OBELICS)と比べて、私たちのデータセットは1) 15倍の規模を維持しながら良好なデータ品質を保ち、2) 英語および非英語のウェブサイト、ビデオ中心のウェブサイトなど、より多様なソースを特徴とし、3) 画像-テキスト交互形式から純粋なテキストコーパスや画像-テキストペアに容易に劣化可能な柔軟性を持っています。包括的な分析と実験を通じて、提案されたデータセットの品質、有用性、有効性を検証します。これが将来のマルチモーダルモデル研究のための堅固なデータ基盤を提供することを願っています。コードとデータはhttps://github.com/OpenGVLab/OmniCorpusで公開されています。
English
Image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids multimodal in-context learning and maintains the capabilities of large language models during multimodal fine-tuning. However, the limited scale and diversity of current image-text interleaved data restrict the development of multimodal large language models. In this paper, we introduce OmniCorpus, a 10 billion-scale image-text interleaved dataset. Using an efficient data engine, we filter and extract large-scale high-quality documents, which contain 8.6 billion images and 1,696 billion text tokens. Compared to counterparts (e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while maintaining good data quality; 2) features more diverse sources, including both English and non-English websites as well as video-centric websites; 3) is more flexible, easily degradable from an image-text interleaved format to pure text corpus and image-text pairs. Through comprehensive analysis and experiments, we validate the quality, usability, and effectiveness of the proposed dataset. We hope this could provide a solid data foundation for future multimodal model research. Code and data are released at https://github.com/OpenGVLab/OmniCorpus.
PDF313December 6, 2024