MIMIC-IT: Ajuste de Instrucciones en Contexto Multimodal
MIMIC-IT: Multi-Modal In-Context Instruction Tuning
June 8, 2023
Autores: Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI
Resumen
Las instrucciones y respuestas de alta calidad son esenciales para el rendimiento zero-shot de los modelos de lenguaje grandes en tareas interactivas de lenguaje natural. Para tareas interactivas de visión y lenguaje que involucran escenas visuales complejas, es imperativo contar con una gran cantidad de pares de instrucción-respuesta diversos y creativos para ajustar los modelos de visión y lenguaje (VLMs). Sin embargo, la disponibilidad actual de pares de instrucción-respuesta en visión y lenguaje, en términos de cantidad, diversidad y creatividad, sigue siendo limitada, lo que plantea desafíos para la generalización de los VLMs interactivos. Aquí presentamos MultI-Modal In-Context Instruction Tuning (MIMIC-IT), un conjunto de datos que comprende 2.8 millones de pares de instrucción-respuesta multimodales, con 2.2 millones de instrucciones únicas derivadas de imágenes y videos. Cada par está acompañado de información multimodal en contexto, formando contextos conversacionales destinados a potenciar los VLMs en percepción, razonamiento y planificación. El proceso de recopilación de instrucciones y respuestas, denominado Syphus, se escala utilizando una canalización de anotación automática que combina la experiencia humana con las capacidades de GPT. Utilizando el conjunto de datos MIMIC-IT, entrenamos un gran VLM llamado Otter. Basado en evaluaciones extensas realizadas en benchmarks de visión y lenguaje, se ha observado que Otter demuestra una notable competencia en percepción multimodal, razonamiento y aprendizaje en contexto. La evaluación humana revela que se alinea efectivamente con las intenciones del usuario. Publicamos el conjunto de datos MIMIC-IT, la canalización de recopilación de instrucciones y respuestas, los benchmarks y el modelo Otter.
English
High-quality instructions and responses are essential for the zero-shot
performance of large language models on interactive natural language tasks. For
interactive vision-language tasks involving intricate visual scenes, a large
quantity of diverse and creative instruction-response pairs should be
imperative to tune vision-language models (VLMs). Nevertheless, the current
availability of vision-language instruction-response pairs in terms of
quantity, diversity, and creativity remains limited, posing challenges to the
generalization of interactive VLMs. Here we present MultI-Modal In-Context
Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal
instruction-response pairs, with 2.2 million unique instructions derived from
images and videos. Each pair is accompanied by multi-modal in-context
information, forming conversational contexts aimed at empowering VLMs in
perception, reasoning, and planning. The instruction-response collection
process, dubbed as Syphus, is scaled using an automatic annotation pipeline
that combines human expertise with GPT's capabilities. Using the MIMIC-IT
dataset, we train a large VLM named Otter. Based on extensive evaluations
conducted on vision-language benchmarks, it has been observed that Otter
demonstrates remarkable proficiency in multi-modal perception, reasoning, and
in-context learning. Human evaluation reveals it effectively aligns with the
user's intentions. We release the MIMIC-IT dataset, instruction-response
collection pipeline, benchmarks, and the Otter model.