M^3IT: Ein umfangreicher Datensatz für Multi-Modales Multilinguales Instruktions-Finetuning
M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
June 7, 2023
Autoren: Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Zusammenfassung
Das Instruction Tuning hat große Sprachmodelle (LLMs) wie ChatGPT erheblich vorangebracht, wodurch sie in der Lage sind, menschliche Anweisungen über verschiedene Aufgaben hinweg zu befolgen. Der Fortschritt bei offenen visuell-sprachlichen Modellen (VLMs) war jedoch aufgrund des Mangels an hochwertigen Instruktionsdatensätzen begrenzt. Um diese Herausforderung zu bewältigen und die Forschung im Bereich der visuell-sprachlichen Modelle zu fördern, stellen wir den Multi-Modal, Multilingual Instruction Tuning (M^3IT)-Datensatz vor, der darauf abzielt, die Ausrichtung von VLMs an menschlichen Anweisungen zu optimieren. Unser M^3IT-Datensatz umfasst 40 sorgfältig kuratierte Datensätze, darunter 2,4 Millionen Instanzen und 400 manuell verfasste Aufgabenanweisungen, die in eine visuell-zu-text-Struktur reformatiert wurden. Schlüsselaufgaben wurden mit einem fortschrittlichen Übersetzungssystem in 80 Sprachen übersetzt, um eine breitere Zugänglichkeit zu gewährleisten. M^3IT übertrifft bisherige Datensätze in Bezug auf Aufgabenabdeckung, Anzahl der Anweisungen und Umfang der Instanzen. Darüber hinaus entwickeln wir Ying-VLM, ein VLM-Modell, das auf unserem M^3IT-Datensatz trainiert wurde und dessen Potenzial zeigt, komplexe Fragen zu beantworten, die Weltwissen erfordern, sich auf unbekannte Videoaufgaben zu verallgemeinern und unbekannte Anweisungen auf Chinesisch zu verstehen. Um weitere Forschungen zu fördern, haben wir sowohl den Datensatz als auch die trainierten Modelle quelloffen gemacht.
English
Instruction tuning has significantly advanced large language models (LLMs)
such as ChatGPT, enabling them to align with human instructions across diverse
tasks. However, progress in open vision-language models (VLMs) has been limited
due to the scarcity of high-quality instruction datasets. To tackle this
challenge and promote research in the vision-language field, we introduce the
Multi-Modal, Multilingual Instruction Tuning (M^3IT) dataset, designed to
optimize VLM alignment with human instructions. Our M^3IT dataset comprises
40 carefully curated datasets, including 2.4 million instances and 400 manually
written task instructions, reformatted into a vision-to-text structure. Key
tasks are translated into 80 languages with an advanced translation system,
ensuring broader accessibility. M^3IT surpasses previous datasets regarding
task coverage, instruction number and instance scale. Moreover, we develop
Ying-VLM, a VLM model trained on our M^3IT dataset, showcasing its potential
to answer complex questions requiring world knowledge, generalize to unseen
video tasks, and comprehend unseen instructions in Chinese. To encourage
further research, we have open-sourced both the dataset and trained models.