M^3IT: Een grootschalige dataset voor multi-modale meertalige instructieafstemming
M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
June 7, 2023
Auteurs: Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Samenvatting
Instructie-afstemming heeft grote vooruitgang geboekt bij grote taalmodelen (LLMs)
zoals ChatGPT, waardoor ze beter kunnen aansluiten bij menselijke instructies voor diverse
taken. Echter, de vooruitgang in open visueel-taalmodelen (VLMs) is beperkt gebleven
vanwege het gebrek aan hoogwaardige instructiedatasets. Om deze uitdaging aan te pakken
en onderzoek in het visueel-taalveld te bevorderen, introduceren we de
Multi-Modale, Meertalige Instructie-Afstemming (M^3IT) dataset, ontworpen om
VLM-afstemming met menselijke instructies te optimaliseren. Onze M^3IT dataset bestaat uit
40 zorgvuldig samengestelde datasets, inclusief 2,4 miljoen instanties en 400 handmatig
geschreven taakinstructies, hervormd naar een visueel-naar-tekststructuur. Belangrijke
taken zijn vertaald in 80 talen met een geavanceerd vertaalsysteem,
wat bredere toegankelijkheid garandeert. M^3IT overtreft eerdere datasets wat betreft
taakdekking, aantal instructies en schaal van instanties. Bovendien ontwikkelen we
Ying-VLM, een VLM-model getraind op onze M^3IT dataset, dat zijn potentieel toont
om complexe vragen te beantwoorden die wereldkennis vereisen, te generaliseren naar onbekende
videotaken, en onbekende instructies in het Chinees te begrijpen. Om verder onderzoek aan te moedigen,
hebben we zowel de dataset als de getrainde modellen open-source gemaakt.
English
Instruction tuning has significantly advanced large language models (LLMs)
such as ChatGPT, enabling them to align with human instructions across diverse
tasks. However, progress in open vision-language models (VLMs) has been limited
due to the scarcity of high-quality instruction datasets. To tackle this
challenge and promote research in the vision-language field, we introduce the
Multi-Modal, Multilingual Instruction Tuning (M^3IT) dataset, designed to
optimize VLM alignment with human instructions. Our M^3IT dataset comprises
40 carefully curated datasets, including 2.4 million instances and 400 manually
written task instructions, reformatted into a vision-to-text structure. Key
tasks are translated into 80 languages with an advanced translation system,
ensuring broader accessibility. M^3IT surpasses previous datasets regarding
task coverage, instruction number and instance scale. Moreover, we develop
Ying-VLM, a VLM model trained on our M^3IT dataset, showcasing its potential
to answer complex questions requiring world knowledge, generalize to unseen
video tasks, and comprehend unseen instructions in Chinese. To encourage
further research, we have open-sourced both the dataset and trained models.