M^3IT : Un jeu de données à grande échelle pour l'apprentissage par instructions multimodal et multilingue
M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
June 7, 2023
Auteurs: Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Résumé
Le réglage par instruction a considérablement fait progresser les grands modèles de langage (LLMs) tels que ChatGPT, leur permettant de s'aligner sur les instructions humaines pour diverses tâches. Cependant, les progrès dans les modèles vision-langage ouverts (VLMs) ont été limités en raison de la rareté des ensembles de données d'instructions de haute qualité. Pour relever ce défi et promouvoir la recherche dans le domaine vision-langage, nous introduisons l'ensemble de données Multi-Modal, Multilingual Instruction Tuning (M^3IT), conçu pour optimiser l'alignement des VLMs avec les instructions humaines. Notre ensemble de données M^3IT comprend 40 ensembles de données soigneusement sélectionnés, incluant 2,4 millions d'instances et 400 instructions de tâches rédigées manuellement, reformatées dans une structure vision-texte. Les tâches clés sont traduites en 80 langues à l'aide d'un système de traduction avancé, garantissant une accessibilité plus large. M^3IT surpasse les ensembles de données précédents en termes de couverture des tâches, nombre d'instructions et échelle des instances. De plus, nous développons Ying-VLM, un modèle VLM entraîné sur notre ensemble de données M^3IT, démontrant son potentiel à répondre à des questions complexes nécessitant des connaissances générales, à généraliser à des tâches vidéo non vues et à comprendre des instructions non vues en chinois. Pour encourager des recherches supplémentaires, nous avons rendu publics à la fois l'ensemble de données et les modèles entraînés.
English
Instruction tuning has significantly advanced large language models (LLMs)
such as ChatGPT, enabling them to align with human instructions across diverse
tasks. However, progress in open vision-language models (VLMs) has been limited
due to the scarcity of high-quality instruction datasets. To tackle this
challenge and promote research in the vision-language field, we introduce the
Multi-Modal, Multilingual Instruction Tuning (M^3IT) dataset, designed to
optimize VLM alignment with human instructions. Our M^3IT dataset comprises
40 carefully curated datasets, including 2.4 million instances and 400 manually
written task instructions, reformatted into a vision-to-text structure. Key
tasks are translated into 80 languages with an advanced translation system,
ensuring broader accessibility. M^3IT surpasses previous datasets regarding
task coverage, instruction number and instance scale. Moreover, we develop
Ying-VLM, a VLM model trained on our M^3IT dataset, showcasing its potential
to answer complex questions requiring world knowledge, generalize to unseen
video tasks, and comprehend unseen instructions in Chinese. To encourage
further research, we have open-sourced both the dataset and trained models.