ChatPaper.aiChatPaper

OBELICS: Um Conjunto de Dados Aberto e Filtrado em Escala Web de Documentos Intercalados de Imagem e Texto

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

June 21, 2023
Autores: Hugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh
cs.AI

Resumo

Modelos multimodais de grande escala treinados em documentos naturais, que intercalam imagens e texto, superam modelos treinados em pares de imagem-texto em vários benchmarks multimodais. No entanto, os conjuntos de dados usados para treinar esses modelos não foram divulgados, e o processo de coleta não foi totalmente especificado. Apresentamos o conjunto de dados OBELICS, um conjunto de dados aberto e em escala da web, filtrado, de documentos intercalados de imagem-texto, composto por 141 milhões de páginas da web extraídas do Common Crawl, 353 milhões de imagens associadas e 115 bilhões de tokens de texto. Descrevemos o processo de criação do conjunto de dados, apresentamos regras abrangentes de filtragem e fornecemos uma análise do conteúdo do conjunto de dados. Para demonstrar a viabilidade do OBELICS, treinamos modelos de visão e linguagem com 9 e 80 bilhões de parâmetros, denominados IDEFICS, e obtemos desempenho competitivo em diferentes benchmarks multimodais. Disponibilizamos nosso conjunto de dados, modelos e código.
English
Large multimodal models trained on natural documents, which interleave images and text, outperform models trained on image-text pairs on various multimodal benchmarks. However, the datasets used to train these models have not been released, and the collection process has not been fully specified. We introduce the OBELICS dataset, an open web-scale filtered dataset of interleaved image-text documents comprising 141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens. We describe the dataset creation process, present comprehensive filtering rules, and provide an analysis of the dataset's content. To show the viability of OBELICS, we train vision and language models of 9 and 80 billion parameters named IDEFICS, and obtain competitive performance on different multimodal benchmarks. We release our dataset, models and code.
PDF464February 7, 2026