OmniCorpus: Un Corpus Multimodal Unificado de 10 Mil Millones de Imágenes Intercaladas con Texto
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
June 12, 2024
Autores: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai
cs.AI
Resumen
Los datos intercalados de imagen y texto, que consisten en múltiples imágenes y textos organizados en un formato de documento natural, se alinean con el paradigma de presentación de los datos de internet y se asemejan estrechamente a los hábitos de lectura humanos. Estudios recientes han demostrado que este tipo de datos facilita el aprendizaje multimodal en contexto y mantiene las capacidades de los modelos de lenguaje grandes durante el ajuste fino multimodal. Sin embargo, la escala limitada y la diversidad reducida de los datos intercalados de imagen y texto actuales restringen el desarrollo de modelos de lenguaje grandes multimodales. En este artículo, presentamos OmniCorpus, un conjunto de datos intercalados de imagen y texto a escala de 10 mil millones. Utilizando un motor de datos eficiente, filtramos y extraemos documentos de gran escala y alta calidad, que contienen 8.6 mil millones de imágenes y 1,696 mil millones de tokens de texto. En comparación con conjuntos de datos similares (por ejemplo, MMC4, OBELICS), nuestro conjunto de datos 1) tiene una escala 15 veces mayor mientras mantiene una buena calidad de datos; 2) presenta fuentes más diversas, incluyendo sitios web en inglés y no inglés, así como sitios web centrados en video; 3) es más flexible, pudiendo degradarse fácilmente de un formato intercalado de imagen y texto a un corpus de texto puro y pares de imagen-texto. A través de un análisis exhaustivo y experimentos, validamos la calidad, usabilidad y efectividad del conjunto de datos propuesto. Esperamos que esto pueda proporcionar una base sólida de datos para futuras investigaciones en modelos multimodales. El código y los datos están disponibles en https://github.com/OpenGVLab/OmniCorpus.
English
Image-text interleaved data, consisting of multiple images and texts arranged
in a natural document format, aligns with the presentation paradigm of internet
data and closely resembles human reading habits. Recent studies have shown that
such data aids multimodal in-context learning and maintains the capabilities of
large language models during multimodal fine-tuning. However, the limited scale
and diversity of current image-text interleaved data restrict the development
of multimodal large language models. In this paper, we introduce OmniCorpus, a
10 billion-scale image-text interleaved dataset. Using an efficient data
engine, we filter and extract large-scale high-quality documents, which contain
8.6 billion images and 1,696 billion text tokens. Compared to counterparts
(e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while
maintaining good data quality; 2) features more diverse sources, including both
English and non-English websites as well as video-centric websites; 3) is more
flexible, easily degradable from an image-text interleaved format to pure text
corpus and image-text pairs. Through comprehensive analysis and experiments, we
validate the quality, usability, and effectiveness of the proposed dataset. We
hope this could provide a solid data foundation for future multimodal model
research. Code and data are released at
https://github.com/OpenGVLab/OmniCorpus.