OBELICS: Un conjunto de datos abierto y filtrado a escala web de documentos intercalados de imagen y texto
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents
June 21, 2023
Autores: Hugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh
cs.AI
Resumen
Los modelos multimodales de gran escala entrenados en documentos naturales, que intercalan imágenes y texto, superan a los modelos entrenados en pares de imagen-texto en varios benchmarks multimodales. Sin embargo, los conjuntos de datos utilizados para entrenar estos modelos no han sido publicados, y el proceso de recopilación no ha sido completamente especificado. Presentamos el conjunto de datos OBELICS, un conjunto de datos abierto y a gran escala de documentos intercalados de imagen-texto, que comprende 141 millones de páginas web extraídas de Common Crawl, 353 millones de imágenes asociadas y 115 mil millones de tokens de texto. Describimos el proceso de creación del conjunto de datos, presentamos reglas de filtrado exhaustivas y proporcionamos un análisis del contenido del conjunto de datos. Para demostrar la viabilidad de OBELICS, entrenamos modelos de visión y lenguaje de 9 y 80 mil millones de parámetros denominados IDEFICS, y obtenemos un rendimiento competitivo en diferentes benchmarks multimodales. Publicamos nuestro conjunto de datos, modelos y código.
English
Large multimodal models trained on natural documents, which interleave images
and text, outperform models trained on image-text pairs on various multimodal
benchmarks. However, the datasets used to train these models have not been
released, and the collection process has not been fully specified. We introduce
the OBELICS dataset, an open web-scale filtered dataset of interleaved
image-text documents comprising 141 million web pages extracted from Common
Crawl, 353 million associated images, and 115 billion text tokens. We describe
the dataset creation process, present comprehensive filtering rules, and
provide an analysis of the dataset's content. To show the viability of OBELICS,
we train vision and language models of 9 and 80 billion parameters named
IDEFICS, and obtain competitive performance on different multimodal benchmarks.
We release our dataset, models and code.