MINT-1T: Skalierung von Open-Source Multimodal-Daten um das 10-fache: Ein Multimodal-Datensatz mit einer Billion Tokens

papers.abstract

Multimodale durchsetzte Datensätze mit frei formatierten durchsetzten Sequenzen von Bildern und Texten sind entscheidend für das Training moderner großer multimodaler Modelle (LMMs). Trotz des schnellen Fortschritts bei Open-Source LMMs besteht immer noch ein deutlicher Mangel an umfangreichen, vielfältigen Open-Source multimodalen durchsetzten Datensätzen. Als Antwort darauf stellen wir MINT-1T vor, den umfangreichsten und vielfältigsten Open-Source Multimodal INTerleaved Datensatz bis heute. MINT-1T umfasst eine Billion Text-Token und drei Milliarden Bilder, eine Verzehnfachung gegenüber bestehenden Open-Source Datensätzen. Darüber hinaus haben wir zuvor ungenutzte Quellen wie PDFs und ArXiv-Papiere einbezogen. Da das Skalieren multimodaler durchsetzter Datensätze erheblichen technischen Aufwand erfordert, profitiert die Gemeinschaft erheblich davon, den Prozess der Datenaufbereitung zu teilen und den Datensatz freizugeben. Unsere Experimente zeigen, dass LMMs, die auf MINT-1T trainiert wurden, die Leistung von Modellen, die auf dem bisher führenden Datensatz OBELICS trainiert wurden, erreichen. Unsere Daten und der Code werden unter https://github.com/mlfoundations/MINT-1T veröffentlicht.

English

Multimodal interleaved datasets featuring free-form interleaved sequences of images and text are crucial for training frontier large multimodal models (LMMs). Despite the rapid progression of open-source LMMs, there remains a pronounced scarcity of large-scale, diverse open-source multimodal interleaved datasets. In response, we introduce MINT-1T, the most extensive and diverse open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one trillion text tokens and three billion images, a 10x scale-up from existing open-source datasets. Additionally, we include previously untapped sources such as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires substantial engineering effort, sharing the data curation process and releasing the dataset greatly benefits the community. Our experiments show that LMMs trained on MINT-1T rival the performance of models trained on the previous leading dataset, OBELICS. Our data and code will be released at https://github.com/mlfoundations/MINT-1T.

MINT-1T: Skalierung von Open-Source Multimodal-Daten um das 10-fache: Ein Multimodal-Datensatz mit einer Billion Tokens

MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

papers.abstract

Support