OmniCorpus: Um Corpus Multimodal Unificado com 10 Bilhões de Imagens Intercaladas com Texto
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
June 12, 2024
Autores: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai
cs.AI
Resumo
Dados intercalados de imagem-texto, compostos por múltiplas imagens e textos organizados em um formato de documento natural, alinham-se ao paradigma de apresentação de dados da internet e assemelham-se de perto aos hábitos de leitura humanos. Estudos recentes demonstraram que tais dados auxiliam no aprendizado multimodal em contexto e mantêm as capacidades de grandes modelos de linguagem durante o ajuste fino multimodal. No entanto, a escala limitada e a diversidade dos atuais dados intercalados de imagem-texto restringem o desenvolvimento de grandes modelos de linguagem multimodal. Neste artigo, apresentamos o OmniCorpus, um conjunto de dados intercalados de imagem-texto em escala de 10 bilhões. Utilizando um mecanismo de dados eficiente, filtramos e extraímos documentos em larga escala de alta qualidade, que contêm 8,6 bilhões de imagens e 1.696 bilhões de tokens de texto. Em comparação com contrapartes (por exemplo, MMC4, OBELICS), nosso conjunto de dados 1) possui uma escala 15 vezes maior enquanto mantém uma boa qualidade dos dados; 2) apresenta fontes mais diversificadas, incluindo sites em inglês e não-inglês, bem como sites centrados em vídeos; 3) é mais flexível, podendo ser facilmente degradado de um formato intercalado de imagem-texto para um corpus de texto puro e pares de imagem-texto. Por meio de análises e experimentos abrangentes, validamos a qualidade, usabilidade e eficácia do conjunto de dados proposto. Esperamos que isso possa fornecer uma base sólida de dados para futuras pesquisas em modelos multimodais. O código e os dados são disponibilizados em https://github.com/OpenGVLab/OmniCorpus.
English
Image-text interleaved data, consisting of multiple images and texts arranged
in a natural document format, aligns with the presentation paradigm of internet
data and closely resembles human reading habits. Recent studies have shown that
such data aids multimodal in-context learning and maintains the capabilities of
large language models during multimodal fine-tuning. However, the limited scale
and diversity of current image-text interleaved data restrict the development
of multimodal large language models. In this paper, we introduce OmniCorpus, a
10 billion-scale image-text interleaved dataset. Using an efficient data
engine, we filter and extract large-scale high-quality documents, which contain
8.6 billion images and 1,696 billion text tokens. Compared to counterparts
(e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while
maintaining good data quality; 2) features more diverse sources, including both
English and non-English websites as well as video-centric websites; 3) is more
flexible, easily degradable from an image-text interleaved format to pure text
corpus and image-text pairs. Through comprehensive analysis and experiments, we
validate the quality, usability, and effectiveness of the proposed dataset. We
hope this could provide a solid data foundation for future multimodal model
research. Code and data are released at
https://github.com/OpenGVLab/OmniCorpus.