M^3IT: Een grootschalige dataset voor multi-modale meertalige instructieafstemming

Samenvatting

Instructie-afstemming heeft grote vooruitgang geboekt bij grote taalmodelen (LLMs) zoals ChatGPT, waardoor ze beter kunnen aansluiten bij menselijke instructies voor diverse taken. Echter, de vooruitgang in open visueel-taalmodelen (VLMs) is beperkt gebleven vanwege het gebrek aan hoogwaardige instructiedatasets. Om deze uitdaging aan te pakken en onderzoek in het visueel-taalveld te bevorderen, introduceren we de Multi-Modale, Meertalige Instructie-Afstemming (M^3IT) dataset, ontworpen om VLM-afstemming met menselijke instructies te optimaliseren. Onze M^3IT dataset bestaat uit 40 zorgvuldig samengestelde datasets, inclusief 2,4 miljoen instanties en 400 handmatig geschreven taakinstructies, hervormd naar een visueel-naar-tekststructuur. Belangrijke taken zijn vertaald in 80 talen met een geavanceerd vertaalsysteem, wat bredere toegankelijkheid garandeert. M^3IT overtreft eerdere datasets wat betreft taakdekking, aantal instructies en schaal van instanties. Bovendien ontwikkelen we Ying-VLM, een VLM-model getraind op onze M^3IT dataset, dat zijn potentieel toont om complexe vragen te beantwoorden die wereldkennis vereisen, te generaliseren naar onbekende videotaken, en onbekende instructies in het Chinees te begrijpen. Om verder onderzoek aan te moedigen, hebben we zowel de dataset als de getrainde modellen open-source gemaakt.

English

Instruction tuning has significantly advanced large language models (LLMs) such as ChatGPT, enabling them to align with human instructions across diverse tasks. However, progress in open vision-language models (VLMs) has been limited due to the scarcity of high-quality instruction datasets. To tackle this challenge and promote research in the vision-language field, we introduce the Multi-Modal, Multilingual Instruction Tuning (M^3IT) dataset, designed to optimize VLM alignment with human instructions. Our M^3IT dataset comprises 40 carefully curated datasets, including 2.4 million instances and 400 manually written task instructions, reformatted into a vision-to-text structure. Key tasks are translated into 80 languages with an advanced translation system, ensuring broader accessibility. M^3IT surpasses previous datasets regarding task coverage, instruction number and instance scale. Moreover, we develop Ying-VLM, a VLM model trained on our M^3IT dataset, showcasing its potential to answer complex questions requiring world knowledge, generalize to unseen video tasks, and comprehend unseen instructions in Chinese. To encourage further research, we have open-sourced both the dataset and trained models.

M^3IT: Een grootschalige dataset voor multi-modale meertalige instructieafstemming

M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

Samenvatting

Support