MIMIC-IT : Réglage d'Instructions en Contexte Multi-Modal
MIMIC-IT: Multi-Modal In-Context Instruction Tuning
June 8, 2023
Auteurs: Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI
Résumé
Des instructions et réponses de haute qualité sont essentielles pour les performances en zero-shot des grands modèles de langage sur des tâches interactives en langage naturel. Pour les tâches interactives vision-langage impliquant des scènes visuelles complexes, une grande quantité de paires instruction-réponse diversifiées et créatives est indispensable pour ajuster les modèles vision-langage (VLMs). Cependant, la disponibilité actuelle de paires instruction-réponse vision-langage en termes de quantité, diversité et créativité reste limitée, posant des défis à la généralisation des VLMs interactifs. Nous présentons ici MultI-Modal In-Context Instruction Tuning (MIMIC-IT), un ensemble de données comprenant 2,8 millions de paires instruction-réponse multimodales, avec 2,2 millions d'instructions uniques dérivées d'images et de vidéos. Chaque paire est accompagnée d'informations multimodales contextuelles, formant des contextes conversationnels visant à renforcer les VLMs dans la perception, le raisonnement et la planification. Le processus de collecte des instructions-réponses, appelé Syphus, est mis à l'échelle grâce à un pipeline d'annotation automatique qui combine l'expertise humaine et les capacités de GPT. En utilisant l'ensemble de données MIMIC-IT, nous entraînons un grand VLM nommé Otter. Sur la base d'évaluations approfondies menées sur des benchmarks vision-langage, il a été observé qu'Otter démontre une remarquable maîtrise dans la perception multimodale, le raisonnement et l'apprentissage contextuel. L'évaluation humaine révèle qu'il s'aligne efficacement avec les intentions de l'utilisateur. Nous publions l'ensemble de données MIMIC-IT, le pipeline de collecte des instructions-réponses, les benchmarks et le modèle Otter.
English
High-quality instructions and responses are essential for the zero-shot
performance of large language models on interactive natural language tasks. For
interactive vision-language tasks involving intricate visual scenes, a large
quantity of diverse and creative instruction-response pairs should be
imperative to tune vision-language models (VLMs). Nevertheless, the current
availability of vision-language instruction-response pairs in terms of
quantity, diversity, and creativity remains limited, posing challenges to the
generalization of interactive VLMs. Here we present MultI-Modal In-Context
Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal
instruction-response pairs, with 2.2 million unique instructions derived from
images and videos. Each pair is accompanied by multi-modal in-context
information, forming conversational contexts aimed at empowering VLMs in
perception, reasoning, and planning. The instruction-response collection
process, dubbed as Syphus, is scaled using an automatic annotation pipeline
that combines human expertise with GPT's capabilities. Using the MIMIC-IT
dataset, we train a large VLM named Otter. Based on extensive evaluations
conducted on vision-language benchmarks, it has been observed that Otter
demonstrates remarkable proficiency in multi-modal perception, reasoning, and
in-context learning. Human evaluation reveals it effectively aligns with the
user's intentions. We release the MIMIC-IT dataset, instruction-response
collection pipeline, benchmarks, and the Otter model.