MINT-1T : Augmenter par 10x les données multimodales open-source : Un ensemble de données multimodales contenant un billion de tokens
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
June 17, 2024
Auteurs: Anas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt
cs.AI
Résumé
Les ensembles de données multimodales entrelacées, présentant des séquences libres et entrelacées d'images et de texte, sont essentiels pour entraîner les modèles multimodaux de grande envergure (LMMs) à la pointe de la technologie. Malgré la progression rapide des LMMs open-source, il existe une pénurie marquée d'ensembles de données multimodales entrelacées à grande échelle et diversifiés. En réponse, nous présentons MINT-1T, l'ensemble de données Multimodal INTerleaved open-source le plus vaste et diversifié à ce jour. MINT-1T comprend un billion de tokens de texte et trois milliards d'images, soit une augmentation d'échelle par 10 par rapport aux ensembles de données open-source existants. De plus, nous incluons des sources jusqu'ici inexploitées telles que les PDFs et les articles d'ArXiv. Étant donné que la mise à l'échelle des ensembles de données multimodales entrelacées nécessite un effort d'ingénierie substantiel, partager le processus de curation des données et publier l'ensemble de données profite grandement à la communauté. Nos expériences montrent que les LMMs entraînés sur MINT-1T rivalisent avec les performances des modèles entraînés sur le précédent ensemble de données leader, OBELICS. Nos données et notre code seront publiés à l'adresse https://github.com/mlfoundations/MINT-1T.
English
Multimodal interleaved datasets featuring free-form interleaved sequences of
images and text are crucial for training frontier large multimodal models
(LMMs). Despite the rapid progression of open-source LMMs, there remains a
pronounced scarcity of large-scale, diverse open-source multimodal interleaved
datasets. In response, we introduce MINT-1T, the most extensive and diverse
open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one
trillion text tokens and three billion images, a 10x scale-up from existing
open-source datasets. Additionally, we include previously untapped sources such
as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires
substantial engineering effort, sharing the data curation process and releasing
the dataset greatly benefits the community. Our experiments show that LMMs
trained on MINT-1T rival the performance of models trained on the previous
leading dataset, OBELICS. Our data and code will be released at
https://github.com/mlfoundations/MINT-1T.Summary
AI-Generated Summary