M^3IT: Un Dataset su Larga Scala per il Fine-Tuning di Istruzioni Multimodali e Multilingue
M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
June 7, 2023
Autori: Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Abstract
Il fine-tuning su istruzioni ha significativamente avanzato i grandi modelli linguistici (LLM) come ChatGPT, consentendo loro di allinearsi con le istruzioni umane su una vasta gamma di compiti. Tuttavia, i progressi nei modelli visione-linguaggio (VLM) open sono stati limitati a causa della scarsità di dataset di istruzioni di alta qualità. Per affrontare questa sfida e promuovere la ricerca nel campo visione-linguaggio, introduciamo il dataset Multi-Modale, Multilingue per il Fine-Tuning su Istruzioni (M^3IT), progettato per ottimizzare l'allineamento dei VLM con le istruzioni umane. Il nostro dataset M^3IT comprende 40 dataset accuratamente selezionati, inclusi 2,4 milioni di istanze e 400 istruzioni per compiti scritte manualmente, riformattate in una struttura visione-testo. I compiti chiave sono tradotti in 80 lingue con un sistema di traduzione avanzato, garantendo una maggiore accessibilità. M^3IT supera i dataset precedenti per quanto riguarda la copertura dei compiti, il numero di istruzioni e la scala delle istanze. Inoltre, sviluppiamo Ying-VLM, un modello VLM addestrato sul nostro dataset M^3IT, che dimostra il suo potenziale nel rispondere a domande complesse che richiedono conoscenza del mondo, nel generalizzare a compiti video non visti e nel comprendere istruzioni non viste in cinese. Per incoraggiare ulteriori ricerche, abbiamo reso open-source sia il dataset che i modelli addestrati.
English
Instruction tuning has significantly advanced large language models (LLMs)
such as ChatGPT, enabling them to align with human instructions across diverse
tasks. However, progress in open vision-language models (VLMs) has been limited
due to the scarcity of high-quality instruction datasets. To tackle this
challenge and promote research in the vision-language field, we introduce the
Multi-Modal, Multilingual Instruction Tuning (M^3IT) dataset, designed to
optimize VLM alignment with human instructions. Our M^3IT dataset comprises
40 carefully curated datasets, including 2.4 million instances and 400 manually
written task instructions, reformatted into a vision-to-text structure. Key
tasks are translated into 80 languages with an advanced translation system,
ensuring broader accessibility. M^3IT surpasses previous datasets regarding
task coverage, instruction number and instance scale. Moreover, we develop
Ying-VLM, a VLM model trained on our M^3IT dataset, showcasing its potential
to answer complex questions requiring world knowledge, generalize to unseen
video tasks, and comprehend unseen instructions in Chinese. To encourage
further research, we have open-sourced both the dataset and trained models.