OBELICS: Un Dataset Aperto su Scala Web di Documenti Filtrati con Immagini e Testo Intervallati

Abstract

I grandi modelli multimodali addestrati su documenti naturali, che intervallano immagini e testo, superano i modelli addestrati su coppie immagine-testo su vari benchmark multimodali. Tuttavia, i dataset utilizzati per addestrare questi modelli non sono stati rilasciati e il processo di raccolta non è stato completamente specificato. Introduciamo il dataset OBELICS, un dataset aperto e su larga scala di documenti intervallati immagine-testo, filtrato e composto da 141 milioni di pagine web estratte da Common Crawl, 353 milioni di immagini associate e 115 miliardi di token di testo. Descriviamo il processo di creazione del dataset, presentiamo regole di filtraggio complete e forniamo un'analisi del contenuto del dataset. Per dimostrare la fattibilità di OBELICS, addestriamo modelli di visione e linguaggio da 9 e 80 miliardi di parametri denominati IDEFICS, ottenendo prestazioni competitive su diversi benchmark multimodali. Rilasciamo il nostro dataset, i modelli e il codice.

English

Large multimodal models trained on natural documents, which interleave images and text, outperform models trained on image-text pairs on various multimodal benchmarks. However, the datasets used to train these models have not been released, and the collection process has not been fully specified. We introduce the OBELICS dataset, an open web-scale filtered dataset of interleaved image-text documents comprising 141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens. We describe the dataset creation process, present comprehensive filtering rules, and provide an analysis of the dataset's content. To show the viability of OBELICS, we train vision and language models of 9 and 80 billion parameters named IDEFICS, and obtain competitive performance on different multimodal benchmarks. We release our dataset, models and code.

OBELICS: Un Dataset Aperto su Scala Web di Documenti Filtrati con Immagini e Testo Intervallati

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

Abstract

Support