MINT-1T: Schaalvergroting van Open-Source Multimodale Data met 10x: Een Multimodale Dataset met Één Biljoen Tokens
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
June 17, 2024
Auteurs: Anas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt
cs.AI
Samenvatting
Multimodale interleaved datasets met vrije, door elkaar heen lopende reeksen van afbeeldingen en tekst zijn cruciaal voor het trainen van geavanceerde grote multimodale modellen (LMMs). Ondanks de snelle vooruitgang van open-source LMMs, is er nog steeds een opvallend gebrek aan grootschalige, diverse open-source multimodale interleaved datasets. Als reactie hierop introduceren we MINT-1T, de meest uitgebreide en diverse open-source Multimodale INTerleaved dataset tot nu toe. MINT-1T bestaat uit één biljoen teksttokens en drie miljard afbeeldingen, een schaalvergroting van 10x ten opzichte van bestaande open-source datasets. Daarnaast hebben we voorheen onbenutte bronnen zoals PDF's en ArXiv-artikelen opgenomen. Omdat het schalen van multimodale interleaved datasets aanzienlijke technische inspanning vereist, is het delen van het datacuratieproces en het vrijgeven van de dataset van groot belang voor de gemeenschap. Onze experimenten tonen aan dat LMMs die op MINT-1T zijn getraind, de prestaties evenaren van modellen die zijn getraind op de vorige toonaangevende dataset, OBELICS. Onze data en code zullen worden vrijgegeven op https://github.com/mlfoundations/MINT-1T.
English
Multimodal interleaved datasets featuring free-form interleaved sequences of
images and text are crucial for training frontier large multimodal models
(LMMs). Despite the rapid progression of open-source LMMs, there remains a
pronounced scarcity of large-scale, diverse open-source multimodal interleaved
datasets. In response, we introduce MINT-1T, the most extensive and diverse
open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one
trillion text tokens and three billion images, a 10x scale-up from existing
open-source datasets. Additionally, we include previously untapped sources such
as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires
substantial engineering effort, sharing the data curation process and releasing
the dataset greatly benefits the community. Our experiments show that LMMs
trained on MINT-1T rival the performance of models trained on the previous
leading dataset, OBELICS. Our data and code will be released at
https://github.com/mlfoundations/MINT-1T.