M^3IT: マルチモーダル・マルチリンガル命令チューニングのための大規模データセット
M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
June 7, 2023
著者: Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
要旨
命令チューニングは、ChatGPTなどの大規模言語モデル(LLM)を大幅に進化させ、多様なタスクにおいて人間の指示に沿うことを可能にしました。しかし、オープンな視覚言語モデル(VLM)の進展は、高品質な命令データセットの不足により制限されてきました。この課題に取り組み、視覚言語分野の研究を促進するため、私たちはマルチモーダル・多言語命令チューニング(M^3IT)データセットを導入しました。このデータセットは、VLMが人間の指示に最適化されるように設計されています。M^3ITデータセットは、40の精選されたデータセットから構成され、240万のインスタンスと400の手書きタスク命令を含み、視覚からテキストへの構造に再フォーマットされています。主要なタスクは高度な翻訳システムを用いて80言語に翻訳され、より広範なアクセシビリティを確保しています。M^3ITは、タスクのカバレッジ、命令の数、インスタンスの規模において、従来のデータセットを凌駕しています。さらに、私たちはM^3ITデータセットでトレーニングされたVLMモデル「Ying-VLM」を開発し、世界知識を必要とする複雑な質問に答える能力、未見のビデオタスクへの汎化能力、そして中国語での未見の命令を理解する能力を示しました。さらなる研究を促進するため、データセットとトレーニング済みモデルの両方をオープンソースとして公開しています。
English
Instruction tuning has significantly advanced large language models (LLMs)
such as ChatGPT, enabling them to align with human instructions across diverse
tasks. However, progress in open vision-language models (VLMs) has been limited
due to the scarcity of high-quality instruction datasets. To tackle this
challenge and promote research in the vision-language field, we introduce the
Multi-Modal, Multilingual Instruction Tuning (M^3IT) dataset, designed to
optimize VLM alignment with human instructions. Our M^3IT dataset comprises
40 carefully curated datasets, including 2.4 million instances and 400 manually
written task instructions, reformatted into a vision-to-text structure. Key
tasks are translated into 80 languages with an advanced translation system,
ensuring broader accessibility. M^3IT surpasses previous datasets regarding
task coverage, instruction number and instance scale. Moreover, we develop
Ying-VLM, a VLM model trained on our M^3IT dataset, showcasing its potential
to answer complex questions requiring world knowledge, generalize to unseen
video tasks, and comprehend unseen instructions in Chinese. To encourage
further research, we have open-sourced both the dataset and trained models.