MIMIC-IT: Ajuste de Instrução em Contexto Multimodal
MIMIC-IT: Multi-Modal In-Context Instruction Tuning
June 8, 2023
Autores: Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI
Resumo
Instruções e respostas de alta qualidade são essenciais para o desempenho zero-shot de grandes modelos de linguagem em tarefas interativas de linguagem natural. Para tarefas interativas de visão e linguagem que envolvem cenas visuais complexas, uma grande quantidade de pares de instrução-resposta diversos e criativos é fundamental para ajustar modelos de visão e linguagem (VLMs). No entanto, a disponibilidade atual de pares de instrução-resposta em visão e linguagem, em termos de quantidade, diversidade e criatividade, ainda é limitada, o que representa desafios para a generalização de VLMs interativos. Aqui apresentamos o MultI-Modal In-Context Instruction Tuning (MIMIC-IT), um conjunto de dados composto por 2,8 milhões de pares de instrução-resposta multimodais, com 2,2 milhões de instruções únicas derivadas de imagens e vídeos. Cada par é acompanhado por informações multimodais em contexto, formando contextos conversacionais destinados a capacitar VLMs em percepção, raciocínio e planejamento. O processo de coleta de instruções e respostas, denominado Syphus, é escalado usando um pipeline de anotação automática que combina a expertise humana com as capacidades do GPT. Utilizando o conjunto de dados MIMIC-IT, treinamos um grande VLM chamado Otter. Com base em avaliações extensas realizadas em benchmarks de visão e linguagem, observou-se que o Otter demonstra uma proficiência notável em percepção multimodal, raciocínio e aprendizado em contexto. A avaliação humana revela que ele se alinha efetivamente com as intenções do usuário. Disponibilizamos o conjunto de dados MIMIC-IT, o pipeline de coleta de instruções e respostas, os benchmarks e o modelo Otter.
English
High-quality instructions and responses are essential for the zero-shot
performance of large language models on interactive natural language tasks. For
interactive vision-language tasks involving intricate visual scenes, a large
quantity of diverse and creative instruction-response pairs should be
imperative to tune vision-language models (VLMs). Nevertheless, the current
availability of vision-language instruction-response pairs in terms of
quantity, diversity, and creativity remains limited, posing challenges to the
generalization of interactive VLMs. Here we present MultI-Modal In-Context
Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal
instruction-response pairs, with 2.2 million unique instructions derived from
images and videos. Each pair is accompanied by multi-modal in-context
information, forming conversational contexts aimed at empowering VLMs in
perception, reasoning, and planning. The instruction-response collection
process, dubbed as Syphus, is scaled using an automatic annotation pipeline
that combines human expertise with GPT's capabilities. Using the MIMIC-IT
dataset, we train a large VLM named Otter. Based on extensive evaluations
conducted on vision-language benchmarks, it has been observed that Otter
demonstrates remarkable proficiency in multi-modal perception, reasoning, and
in-context learning. Human evaluation reveals it effectively aligns with the
user's intentions. We release the MIMIC-IT dataset, instruction-response
collection pipeline, benchmarks, and the Otter model.