MINT-1T: Skalierung von Open-Source Multimodal-Daten um das 10-fache: Ein Multimodal-Datensatz mit einer Billion Tokens
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
June 17, 2024
Autoren: Anas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt
cs.AI
Zusammenfassung
Multimodale durchsetzte Datensätze mit frei formatierten durchsetzten Sequenzen von Bildern und Texten sind entscheidend für das Training moderner großer multimodaler Modelle (LMMs). Trotz des schnellen Fortschritts bei Open-Source LMMs besteht immer noch ein deutlicher Mangel an umfangreichen, vielfältigen Open-Source multimodalen durchsetzten Datensätzen. Als Antwort darauf stellen wir MINT-1T vor, den umfangreichsten und vielfältigsten Open-Source Multimodal INTerleaved Datensatz bis heute. MINT-1T umfasst eine Billion Text-Token und drei Milliarden Bilder, eine Verzehnfachung gegenüber bestehenden Open-Source Datensätzen. Darüber hinaus haben wir zuvor ungenutzte Quellen wie PDFs und ArXiv-Papiere einbezogen. Da das Skalieren multimodaler durchsetzter Datensätze erheblichen technischen Aufwand erfordert, profitiert die Gemeinschaft erheblich davon, den Prozess der Datenaufbereitung zu teilen und den Datensatz freizugeben. Unsere Experimente zeigen, dass LMMs, die auf MINT-1T trainiert wurden, die Leistung von Modellen, die auf dem bisher führenden Datensatz OBELICS trainiert wurden, erreichen. Unsere Daten und der Code werden unter https://github.com/mlfoundations/MINT-1T veröffentlicht.
English
Multimodal interleaved datasets featuring free-form interleaved sequences of
images and text are crucial for training frontier large multimodal models
(LMMs). Despite the rapid progression of open-source LMMs, there remains a
pronounced scarcity of large-scale, diverse open-source multimodal interleaved
datasets. In response, we introduce MINT-1T, the most extensive and diverse
open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one
trillion text tokens and three billion images, a 10x scale-up from existing
open-source datasets. Additionally, we include previously untapped sources such
as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires
substantial engineering effort, sharing the data curation process and releasing
the dataset greatly benefits the community. Our experiments show that LMMs
trained on MINT-1T rival the performance of models trained on the previous
leading dataset, OBELICS. Our data and code will be released at
https://github.com/mlfoundations/MINT-1T.Summary
AI-Generated Summary