OBELICS: Ein offener, web-skalierter, gefilterter Datensatz von verschachtelten Bild-Text-Dokumenten
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents
June 21, 2023
Autoren: Hugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh
cs.AI
Zusammenfassung
Große multimodale Modelle, die auf natürlichen Dokumenten trainiert wurden, die Bilder und Text miteinander verknüpfen, übertreffen Modelle, die auf Bild-Text-Paaren trainiert wurden, in verschiedenen multimodalen Benchmarks. Allerdings wurden die Datensätze, die zum Training dieser Modelle verwendet wurden, nicht veröffentlicht, und der Sammelprozess wurde nicht vollständig spezifiziert. Wir stellen den OBELICS-Datensatz vor, einen offenen, web-skaligen gefilterten Datensatz von verknüpften Bild-Text-Dokumenten, der 141 Millionen Webseiten aus Common Crawl, 353 Millionen zugehörige Bilder und 115 Milliarden Text-Tokens umfasst. Wir beschreiben den Prozess der Datensatzerstellung, präsentieren umfassende Filterregeln und bieten eine Analyse des Inhalts des Datensatzes. Um die Tauglichkeit von OBELICS zu demonstrieren, trainieren wir visuelle und sprachliche Modelle mit 9 und 80 Milliarden Parametern, genannt IDEFICS, und erzielen wettbewerbsfähige Leistungen in verschiedenen multimodalen Benchmarks. Wir veröffentlichen unseren Datensatz, Modelle und Code.
English
Large multimodal models trained on natural documents, which interleave images
and text, outperform models trained on image-text pairs on various multimodal
benchmarks. However, the datasets used to train these models have not been
released, and the collection process has not been fully specified. We introduce
the OBELICS dataset, an open web-scale filtered dataset of interleaved
image-text documents comprising 141 million web pages extracted from Common
Crawl, 353 million associated images, and 115 billion text tokens. We describe
the dataset creation process, present comprehensive filtering rules, and
provide an analysis of the dataset's content. To show the viability of OBELICS,
we train vision and language models of 9 and 80 billion parameters named
IDEFICS, and obtain competitive performance on different multimodal benchmarks.
We release our dataset, models and code.