M^3IT: Um Conjunto de Dados em Grande Escala para Ajuste de Instruções Multimodal e Multilíngue
M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
June 7, 2023
Autores: Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Resumo
O ajuste por instruções tem avançado significativamente os grandes modelos de linguagem (LLMs), como o ChatGPT, permitindo que eles se alinhem com instruções humanas em diversas tarefas. No entanto, o progresso em modelos visão-linguagem (VLMs) de código aberto tem sido limitado devido à escassez de conjuntos de dados de instruções de alta qualidade. Para enfrentar esse desafio e promover pesquisas no campo de visão-linguagem, introduzimos o conjunto de dados Multi-Modal, Multilingual Instruction Tuning (M^3IT), projetado para otimizar o alinhamento de VLMs com instruções humanas. Nosso conjunto de dados M^3IT compreende 40 conjuntos de dados cuidadosamente curados, incluindo 2,4 milhões de instâncias e 400 instruções de tarefas escritas manualmente, reformatadas em uma estrutura de visão para texto. Tarefas-chave são traduzidas para 80 idiomas com um sistema de tradução avançado, garantindo maior acessibilidade. O M^3IT supera conjuntos de dados anteriores em termos de cobertura de tarefas, número de instruções e escala de instâncias. Além disso, desenvolvemos o Ying-VLM, um modelo VLM treinado em nosso conjunto de dados M^3IT, demonstrando seu potencial para responder a perguntas complexas que exigem conhecimento do mundo, generalizar para tarefas de vídeo não vistas e compreender instruções não vistas em chinês. Para incentivar mais pesquisas, disponibilizamos tanto o conjunto de dados quanto os modelos treinados como código aberto.
English
Instruction tuning has significantly advanced large language models (LLMs)
such as ChatGPT, enabling them to align with human instructions across diverse
tasks. However, progress in open vision-language models (VLMs) has been limited
due to the scarcity of high-quality instruction datasets. To tackle this
challenge and promote research in the vision-language field, we introduce the
Multi-Modal, Multilingual Instruction Tuning (M^3IT) dataset, designed to
optimize VLM alignment with human instructions. Our M^3IT dataset comprises
40 carefully curated datasets, including 2.4 million instances and 400 manually
written task instructions, reformatted into a vision-to-text structure. Key
tasks are translated into 80 languages with an advanced translation system,
ensuring broader accessibility. M^3IT surpasses previous datasets regarding
task coverage, instruction number and instance scale. Moreover, we develop
Ying-VLM, a VLM model trained on our M^3IT dataset, showcasing its potential
to answer complex questions requiring world knowledge, generalize to unseen
video tasks, and comprehend unseen instructions in Chinese. To encourage
further research, we have open-sourced both the dataset and trained models.