M^3IT: Um Conjunto de Dados em Grande Escala para Ajuste de Instruções Multimodal e Multilíngue

Resumo

O ajuste por instruções tem avançado significativamente os grandes modelos de linguagem (LLMs), como o ChatGPT, permitindo que eles se alinhem com instruções humanas em diversas tarefas. No entanto, o progresso em modelos visão-linguagem (VLMs) de código aberto tem sido limitado devido à escassez de conjuntos de dados de instruções de alta qualidade. Para enfrentar esse desafio e promover pesquisas no campo de visão-linguagem, introduzimos o conjunto de dados Multi-Modal, Multilingual Instruction Tuning (M^3IT), projetado para otimizar o alinhamento de VLMs com instruções humanas. Nosso conjunto de dados M^3IT compreende 40 conjuntos de dados cuidadosamente curados, incluindo 2,4 milhões de instâncias e 400 instruções de tarefas escritas manualmente, reformatadas em uma estrutura de visão para texto. Tarefas-chave são traduzidas para 80 idiomas com um sistema de tradução avançado, garantindo maior acessibilidade. O M^3IT supera conjuntos de dados anteriores em termos de cobertura de tarefas, número de instruções e escala de instâncias. Além disso, desenvolvemos o Ying-VLM, um modelo VLM treinado em nosso conjunto de dados M^3IT, demonstrando seu potencial para responder a perguntas complexas que exigem conhecimento do mundo, generalizar para tarefas de vídeo não vistas e compreender instruções não vistas em chinês. Para incentivar mais pesquisas, disponibilizamos tanto o conjunto de dados quanto os modelos treinados como código aberto.

English

Instruction tuning has significantly advanced large language models (LLMs) such as ChatGPT, enabling them to align with human instructions across diverse tasks. However, progress in open vision-language models (VLMs) has been limited due to the scarcity of high-quality instruction datasets. To tackle this challenge and promote research in the vision-language field, we introduce the Multi-Modal, Multilingual Instruction Tuning (M^3IT) dataset, designed to optimize VLM alignment with human instructions. Our M^3IT dataset comprises 40 carefully curated datasets, including 2.4 million instances and 400 manually written task instructions, reformatted into a vision-to-text structure. Key tasks are translated into 80 languages with an advanced translation system, ensuring broader accessibility. M^3IT surpasses previous datasets regarding task coverage, instruction number and instance scale. Moreover, we develop Ying-VLM, a VLM model trained on our M^3IT dataset, showcasing its potential to answer complex questions requiring world knowledge, generalize to unseen video tasks, and comprehend unseen instructions in Chinese. To encourage further research, we have open-sourced both the dataset and trained models.

M^3IT: Um Conjunto de Dados em Grande Escala para Ajuste de Instruções Multimodal e Multilíngue

M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

Resumo

Support