ChatPaper.aiChatPaper

M^3IT: Крупномасштабный набор данных для многомодальной многоязычной настройки инструкций

M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

June 7, 2023
Авторы: Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI

Аннотация

Настройка на инструкции значительно продвинула крупные языковые модели (LLM), такие как ChatGPT, позволив им соответствовать человеческим инструкциям в разнообразных задачах. Однако прогресс в открытых визуально-языковых моделях (VLMs) был ограничен из-за недостатка высококачественных наборов данных с инструкциями. Для решения этой проблемы и стимулирования исследований в области визуально-языковых моделей мы представляем набор данных Multi-Modal, Multilingual Instruction Tuning (M^3IT), разработанный для оптимизации соответствия VLMs человеческим инструкциям. Наш набор данных M^3IT включает 40 тщательно отобранных наборов данных, содержащих 2,4 миллиона примеров и 400 вручную написанных инструкций для задач, переформатированных в структуру "визуальный-в-текстовый". Ключевые задачи переведены на 80 языков с использованием передовой системы перевода, что обеспечивает более широкую доступность. M^3IT превосходит предыдущие наборы данных по охвату задач, количеству инструкций и масштабу примеров. Кроме того, мы разработали модель Ying-VLM, обученную на нашем наборе данных M^3IT, демонстрирующую её способность отвечать на сложные вопросы, требующие знаний о мире, обобщать на невидимые задачи в видео и понимать невидимые инструкции на китайском языке. Для поощрения дальнейших исследований мы открыли исходные коды как набора данных, так и обученных моделей.
English
Instruction tuning has significantly advanced large language models (LLMs) such as ChatGPT, enabling them to align with human instructions across diverse tasks. However, progress in open vision-language models (VLMs) has been limited due to the scarcity of high-quality instruction datasets. To tackle this challenge and promote research in the vision-language field, we introduce the Multi-Modal, Multilingual Instruction Tuning (M^3IT) dataset, designed to optimize VLM alignment with human instructions. Our M^3IT dataset comprises 40 carefully curated datasets, including 2.4 million instances and 400 manually written task instructions, reformatted into a vision-to-text structure. Key tasks are translated into 80 languages with an advanced translation system, ensuring broader accessibility. M^3IT surpasses previous datasets regarding task coverage, instruction number and instance scale. Moreover, we develop Ying-VLM, a VLM model trained on our M^3IT dataset, showcasing its potential to answer complex questions requiring world knowledge, generalize to unseen video tasks, and comprehend unseen instructions in Chinese. To encourage further research, we have open-sourced both the dataset and trained models.
PDF81December 15, 2024