MINT-1T: 오픈소스 멀티모달 데이터를 10배 확장: 1조 토큰 규모의 멀티모달 데이터셋
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
June 17, 2024
저자: Anas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt
cs.AI
초록
이미지와 텍스트의 자유로운 인터리브(interleaved) 시퀀스를 포함한 멀티모달 인터리브 데이터셋은 최첨단 대규모 멀티모달 모델(LMM)을 훈련하는 데 필수적입니다. 오픈소스 LMM의 급속한 발전에도 불구하고, 대규모이고 다양한 오픈소스 멀티모달 인터리브 데이터셋은 여전히 크게 부족한 상황입니다. 이에 대응하여, 우리는 현재까지 가장 방대하고 다양한 오픈소스 멀티모달 인터리브 데이터셋인 MINT-1T를 소개합니다. MINT-1T는 1조 개의 텍스트 토큰과 30억 개의 이미지로 구성되어 있으며, 이는 기존 오픈소스 데이터셋 대비 10배 규모의 확장입니다. 또한, PDF와 ArXiv 논문과 같은 이전에는 활용되지 않았던 소스도 포함했습니다. 멀티모달 인터리브 데이터셋의 규모를 확장하는 데는 상당한 엔지니어링 노력이 필요하므로, 데이터 큐레이션 과정을 공유하고 데이터셋을 공개하는 것은 커뮤니티에 큰 이익을 제공합니다. 우리의 실험 결과, MINT-1T로 훈련된 LMM은 이전의 선두 데이터셋인 OBELICS로 훈련된 모델과 견줄 만한 성능을 보였습니다. 우리의 데이터와 코드는 https://github.com/mlfoundations/MINT-1T에서 공개될 예정입니다.
English
Multimodal interleaved datasets featuring free-form interleaved sequences of
images and text are crucial for training frontier large multimodal models
(LMMs). Despite the rapid progression of open-source LMMs, there remains a
pronounced scarcity of large-scale, diverse open-source multimodal interleaved
datasets. In response, we introduce MINT-1T, the most extensive and diverse
open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one
trillion text tokens and three billion images, a 10x scale-up from existing
open-source datasets. Additionally, we include previously untapped sources such
as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires
substantial engineering effort, sharing the data curation process and releasing
the dataset greatly benefits the community. Our experiments show that LMMs
trained on MINT-1T rival the performance of models trained on the previous
leading dataset, OBELICS. Our data and code will be released at
https://github.com/mlfoundations/MINT-1T.Summary
AI-Generated Summary