MINT-1T: Schaalvergroting van Open-Source Multimodale Data met 10x: Een Multimodale Dataset met Één Biljoen Tokens

Samenvatting

Multimodale interleaved datasets met vrije, door elkaar heen lopende reeksen van afbeeldingen en tekst zijn cruciaal voor het trainen van geavanceerde grote multimodale modellen (LMMs). Ondanks de snelle vooruitgang van open-source LMMs, is er nog steeds een opvallend gebrek aan grootschalige, diverse open-source multimodale interleaved datasets. Als reactie hierop introduceren we MINT-1T, de meest uitgebreide en diverse open-source Multimodale INTerleaved dataset tot nu toe. MINT-1T bestaat uit één biljoen teksttokens en drie miljard afbeeldingen, een schaalvergroting van 10x ten opzichte van bestaande open-source datasets. Daarnaast hebben we voorheen onbenutte bronnen zoals PDF's en ArXiv-artikelen opgenomen. Omdat het schalen van multimodale interleaved datasets aanzienlijke technische inspanning vereist, is het delen van het datacuratieproces en het vrijgeven van de dataset van groot belang voor de gemeenschap. Onze experimenten tonen aan dat LMMs die op MINT-1T zijn getraind, de prestaties evenaren van modellen die zijn getraind op de vorige toonaangevende dataset, OBELICS. Onze data en code zullen worden vrijgegeven op https://github.com/mlfoundations/MINT-1T.

English

Multimodal interleaved datasets featuring free-form interleaved sequences of images and text are crucial for training frontier large multimodal models (LMMs). Despite the rapid progression of open-source LMMs, there remains a pronounced scarcity of large-scale, diverse open-source multimodal interleaved datasets. In response, we introduce MINT-1T, the most extensive and diverse open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one trillion text tokens and three billion images, a 10x scale-up from existing open-source datasets. Additionally, we include previously untapped sources such as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires substantial engineering effort, sharing the data curation process and releasing the dataset greatly benefits the community. Our experiments show that LMMs trained on MINT-1T rival the performance of models trained on the previous leading dataset, OBELICS. Our data and code will be released at https://github.com/mlfoundations/MINT-1T.

MINT-1T: Schaalvergroting van Open-Source Multimodale Data met 10x: Een Multimodale Dataset met Één Biljoen Tokens

MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

Samenvatting

Support