OBELICS : Un ensemble de données ouvert à l'échelle du web de documents imbriqués image-texte filtrés
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents
June 21, 2023
Auteurs: Hugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh
cs.AI
Résumé
Les grands modèles multimodaux entraînés sur des documents naturels, qui entrelacent images et texte, surpassent les modèles entraînés sur des paires image-texte sur divers benchmarks multimodaux. Cependant, les ensembles de données utilisés pour entraîner ces modèles n'ont pas été publiés, et le processus de collecte n'a pas été entièrement spécifié. Nous présentons l'ensemble de données OBELICS, un ensemble de données filtré à grande échelle et ouvert de documents entrelaçant images et texte, comprenant 141 millions de pages web extraites de Common Crawl, 353 millions d'images associées et 115 milliards de tokens de texte. Nous décrivons le processus de création de l'ensemble de données, présentons des règles de filtrage exhaustives et fournissons une analyse du contenu de l'ensemble de données. Pour démontrer la viabilité d'OBELICS, nous entraînons des modèles de vision et de langage de 9 et 80 milliards de paramètres nommés IDEFICS, et obtenons des performances compétitives sur différents benchmarks multimodaux. Nous publions notre ensemble de données, nos modèles et notre code.
English
Large multimodal models trained on natural documents, which interleave images
and text, outperform models trained on image-text pairs on various multimodal
benchmarks. However, the datasets used to train these models have not been
released, and the collection process has not been fully specified. We introduce
the OBELICS dataset, an open web-scale filtered dataset of interleaved
image-text documents comprising 141 million web pages extracted from Common
Crawl, 353 million associated images, and 115 billion text tokens. We describe
the dataset creation process, present comprehensive filtering rules, and
provide an analysis of the dataset's content. To show the viability of OBELICS,
we train vision and language models of 9 and 80 billion parameters named
IDEFICS, and obtain competitive performance on different multimodal benchmarks.
We release our dataset, models and code.