ChatPaper.aiChatPaper

OBELICS: Een open, web-schaal gefilterde dataset van interleavende beeld-tekst documenten

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

June 21, 2023
Auteurs: Hugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh
cs.AI

Samenvatting

Grote multimodale modellen die getraind zijn op natuurlijke documenten, waarin afbeeldingen en tekst door elkaar heen lopen, presteren beter dan modellen die getraind zijn op afbeelding-tekstparen in verschillende multimodale benchmarks. De datasets die gebruikt zijn om deze modellen te trainen, zijn echter niet vrijgegeven en het verzamelproces is niet volledig gespecificeerd. Wij introduceren de OBELICS-dataset, een open, web-schaal gefilterde dataset van door elkaar lopende afbeelding-tekstdocumenten, bestaande uit 141 miljoen webpagina's geëxtraheerd uit Common Crawl, 353 miljoen bijbehorende afbeeldingen en 115 miljard teksttokens. We beschrijven het proces van datasetcreatie, presenteren uitgebreide filterregels en bieden een analyse van de inhoud van de dataset. Om de haalbaarheid van OBELICS aan te tonen, trainen we visie- en taalmodellen van 9 en 80 miljard parameters, genaamd IDEFICS, en behalen we competitieve prestaties op verschillende multimodale benchmarks. We geven onze dataset, modellen en code vrij.
English
Large multimodal models trained on natural documents, which interleave images and text, outperform models trained on image-text pairs on various multimodal benchmarks. However, the datasets used to train these models have not been released, and the collection process has not been fully specified. We introduce the OBELICS dataset, an open web-scale filtered dataset of interleaved image-text documents comprising 141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens. We describe the dataset creation process, present comprehensive filtering rules, and provide an analysis of the dataset's content. To show the viability of OBELICS, we train vision and language models of 9 and 80 billion parameters named IDEFICS, and obtain competitive performance on different multimodal benchmarks. We release our dataset, models and code.
PDF464February 7, 2026