M^3IT: Un conjunto de datos a gran escala para el ajuste de instrucciones multimodal y multilingüe
M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
June 7, 2023
Autores: Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Resumen
El ajuste por instrucciones ha avanzado significativamente los modelos de lenguaje grande (LLMs, por sus siglas en inglés), como ChatGPT, permitiéndoles alinearse con las instrucciones humanas en diversas tareas. Sin embargo, el progreso en los modelos abiertos de visión y lenguaje (VLMs, por sus siglas en inglés) ha sido limitado debido a la escasez de conjuntos de datos de instrucciones de alta calidad. Para abordar este desafío y promover la investigación en el campo de visión y lenguaje, presentamos el conjunto de datos Multi-Modal, Multilingual Instruction Tuning (M^3IT), diseñado para optimizar la alineación de los VLMs con las instrucciones humanas. Nuestro conjunto de datos M^3IT comprende 40 conjuntos de datos cuidadosamente seleccionados, incluyendo 2.4 millones de instancias y 400 instrucciones de tareas escritas manualmente, reformateadas en una estructura de visión a texto. Las tareas clave se han traducido a 80 idiomas utilizando un sistema de traducción avanzado, garantizando una mayor accesibilidad. M^3IT supera a los conjuntos de datos anteriores en términos de cobertura de tareas, número de instrucciones y escala de instancias. Además, desarrollamos Ying-VLM, un modelo VLM entrenado en nuestro conjunto de datos M^3IT, que demuestra su potencial para responder preguntas complejas que requieren conocimiento del mundo, generalizar a tareas de video no vistas y comprender instrucciones no vistas en chino. Para fomentar futuras investigaciones, hemos liberado tanto el conjunto de datos como los modelos entrenados.
English
Instruction tuning has significantly advanced large language models (LLMs)
such as ChatGPT, enabling them to align with human instructions across diverse
tasks. However, progress in open vision-language models (VLMs) has been limited
due to the scarcity of high-quality instruction datasets. To tackle this
challenge and promote research in the vision-language field, we introduce the
Multi-Modal, Multilingual Instruction Tuning (M^3IT) dataset, designed to
optimize VLM alignment with human instructions. Our M^3IT dataset comprises
40 carefully curated datasets, including 2.4 million instances and 400 manually
written task instructions, reformatted into a vision-to-text structure. Key
tasks are translated into 80 languages with an advanced translation system,
ensuring broader accessibility. M^3IT surpasses previous datasets regarding
task coverage, instruction number and instance scale. Moreover, we develop
Ying-VLM, a VLM model trained on our M^3IT dataset, showcasing its potential
to answer complex questions requiring world knowledge, generalize to unseen
video tasks, and comprehend unseen instructions in Chinese. To encourage
further research, we have open-sourced both the dataset and trained models.