ChatPaper.aiChatPaper

OmniCorpus: Ein vereinheitlichtes multimodales Korpus von Bildern auf 10-Milliarden-Ebene, durchsetzt mit Text.

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

June 12, 2024
papers.authors: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai
cs.AI

papers.abstract

Bild-Text-interleavierte Daten, bestehend aus mehreren Bildern und Texten, die in einem natürlichen Dokumentenformat angeordnet sind, entsprechen dem Präsentationsparadigma von Internetdaten und ähneln eng den Lesegewohnheiten von Menschen. Aktuelle Studien haben gezeigt, dass solche Daten multimodales In-Context-Lernen unterstützen und die Fähigkeiten großer Sprachmodelle während des multimodalen Feintunings aufrechterhalten. Die begrenzte Skala und Vielfalt der aktuellen Bild-Text-interleavierten Daten beschränken jedoch die Entwicklung multimodaler großer Sprachmodelle. In diesem Papier stellen wir OmniCorpus vor, einen Bild-Text-interleavierten Datensatz im Maßstab von 10 Milliarden. Unter Verwendung eines effizienten Datenmotors filtern und extrahieren wir groß angelegte hochwertige Dokumente, die 8,6 Milliarden Bilder und 1,696 Billionen Text-Token enthalten. Im Vergleich zu Konkurrenten (z. B. MMC4, OBELICS) hat unser Datensatz 1) eine 15-mal größere Skala bei gleichbleibender Datenqualität; 2) umfasst mehr diverse Quellen, einschließlich sowohl englischer als auch nicht-englischer Websites sowie videozentrischer Websites; 3) ist flexibler, leicht von einem Bild-Text-interleavierten Format zu reinem Textkorpus und Bild-Text-Paaren umwandelbar. Durch umfassende Analysen und Experimente validieren wir die Qualität, Benutzerfreundlichkeit und Effektivität des vorgeschlagenen Datensatzes. Wir hoffen, dass dies eine solide Datenbasis für zukünftige multimodale Modellforschung bereitstellen könnte. Der Code und die Daten sind unter https://github.com/OpenGVLab/OmniCorpus verfügbar.
English
Image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids multimodal in-context learning and maintains the capabilities of large language models during multimodal fine-tuning. However, the limited scale and diversity of current image-text interleaved data restrict the development of multimodal large language models. In this paper, we introduce OmniCorpus, a 10 billion-scale image-text interleaved dataset. Using an efficient data engine, we filter and extract large-scale high-quality documents, which contain 8.6 billion images and 1,696 billion text tokens. Compared to counterparts (e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while maintaining good data quality; 2) features more diverse sources, including both English and non-English websites as well as video-centric websites; 3) is more flexible, easily degradable from an image-text interleaved format to pure text corpus and image-text pairs. Through comprehensive analysis and experiments, we validate the quality, usability, and effectiveness of the proposed dataset. We hope this could provide a solid data foundation for future multimodal model research. Code and data are released at https://github.com/OpenGVLab/OmniCorpus.
PDF313December 6, 2024