ChatPaper.aiChatPaper

MIMIC-IT: Мультимодальная настройка инструкций в контексте

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

June 8, 2023
Авторы: Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI

Аннотация

Высококачественные инструкции и ответы имеют ключевое значение для нулевого сценария (zero-shot) производительности крупных языковых моделей в интерактивных задачах обработки естественного языка. Для интерактивных задач, связанных с обработкой визуальных и языковых данных, включающих сложные визуальные сцены, необходимо большое количество разнообразных и креативных пар "инструкция-ответ" для настройки моделей, работающих с визуальными и языковыми данными (vision-language models, VLMs). Однако текущая доступность таких пар с точки зрения количества, разнообразия и креативности остается ограниченной, что создает трудности для обобщения интерактивных VLMs. В данной работе представлен набор данных MultI-Modal In-Context Instruction Tuning (MIMIC-IT), содержащий 2,8 миллиона мультимодальных пар "инструкция-ответ", включая 2,2 миллиона уникальных инструкций, полученных на основе изображений и видео. Каждая пара сопровождается мультимодальной контекстной информацией, формирующей диалоговые контексты, направленные на улучшение способностей VLMs в восприятии, рассуждении и планировании. Процесс сбора пар "инструкция-ответ", названный Syphus, масштабируется с использованием автоматизированного конвейера аннотирования, который сочетает экспертные знания человека с возможностями GPT. Используя набор данных MIMIC-IT, мы обучаем крупную VLM под названием Otter. На основе обширных оценок, проведенных на бенчмарках для задач обработки визуальных и языковых данных, было установлено, что Otter демонстрирует выдающиеся способности в мультимодальном восприятии, рассуждении и обучении в контексте. Оценка людьми показывает, что модель эффективно соответствует намерениям пользователя. Мы публикуем набор данных MIMIC-IT, конвейер сбора пар "инструкция-ответ", бенчмарки и модель Otter.
English
High-quality instructions and responses are essential for the zero-shot performance of large language models on interactive natural language tasks. For interactive vision-language tasks involving intricate visual scenes, a large quantity of diverse and creative instruction-response pairs should be imperative to tune vision-language models (VLMs). Nevertheless, the current availability of vision-language instruction-response pairs in terms of quantity, diversity, and creativity remains limited, posing challenges to the generalization of interactive VLMs. Here we present MultI-Modal In-Context Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal instruction-response pairs, with 2.2 million unique instructions derived from images and videos. Each pair is accompanied by multi-modal in-context information, forming conversational contexts aimed at empowering VLMs in perception, reasoning, and planning. The instruction-response collection process, dubbed as Syphus, is scaled using an automatic annotation pipeline that combines human expertise with GPT's capabilities. Using the MIMIC-IT dataset, we train a large VLM named Otter. Based on extensive evaluations conducted on vision-language benchmarks, it has been observed that Otter demonstrates remarkable proficiency in multi-modal perception, reasoning, and in-context learning. Human evaluation reveals it effectively aligns with the user's intentions. We release the MIMIC-IT dataset, instruction-response collection pipeline, benchmarks, and the Otter model.
PDF110December 15, 2024