MINT-1T : Augmenter par 10x les données multimodales open-source : Un ensemble de données multimodales contenant un billion de tokens

papers.abstract

Les ensembles de données multimodales entrelacées, présentant des séquences libres et entrelacées d'images et de texte, sont essentiels pour entraîner les modèles multimodaux de grande envergure (LMMs) à la pointe de la technologie. Malgré la progression rapide des LMMs open-source, il existe une pénurie marquée d'ensembles de données multimodales entrelacées à grande échelle et diversifiés. En réponse, nous présentons MINT-1T, l'ensemble de données Multimodal INTerleaved open-source le plus vaste et diversifié à ce jour. MINT-1T comprend un billion de tokens de texte et trois milliards d'images, soit une augmentation d'échelle par 10 par rapport aux ensembles de données open-source existants. De plus, nous incluons des sources jusqu'ici inexploitées telles que les PDFs et les articles d'ArXiv. Étant donné que la mise à l'échelle des ensembles de données multimodales entrelacées nécessite un effort d'ingénierie substantiel, partager le processus de curation des données et publier l'ensemble de données profite grandement à la communauté. Nos expériences montrent que les LMMs entraînés sur MINT-1T rivalisent avec les performances des modèles entraînés sur le précédent ensemble de données leader, OBELICS. Nos données et notre code seront publiés à l'adresse https://github.com/mlfoundations/MINT-1T.

English

Multimodal interleaved datasets featuring free-form interleaved sequences of images and text are crucial for training frontier large multimodal models (LMMs). Despite the rapid progression of open-source LMMs, there remains a pronounced scarcity of large-scale, diverse open-source multimodal interleaved datasets. In response, we introduce MINT-1T, the most extensive and diverse open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one trillion text tokens and three billion images, a 10x scale-up from existing open-source datasets. Additionally, we include previously untapped sources such as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires substantial engineering effort, sharing the data curation process and releasing the dataset greatly benefits the community. Our experiments show that LMMs trained on MINT-1T rival the performance of models trained on the previous leading dataset, OBELICS. Our data and code will be released at https://github.com/mlfoundations/MINT-1T.

MINT-1T : Augmenter par 10x les données multimodales open-source : Un ensemble de données multimodales contenant un billion de tokens

MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

papers.abstract

Support