MIMIC-IT: Sintonizzazione Multi-Modale delle Istruzioni in Contesto
MIMIC-IT: Multi-Modal In-Context Instruction Tuning
June 8, 2023
Autori: Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI
Abstract
Istruzioni e risposte di alta qualità sono essenziali per le prestazioni zero-shot dei grandi modelli linguistici su compiti interattivi di elaborazione del linguaggio naturale. Per compiti interattivi che coinvolgono linguaggio e visione in scenari visivi complessi, è imperativo disporre di una grande quantità di coppie istruzione-risposta diverse e creative per ottimizzare i modelli visione-linguaggio (VLM). Tuttavia, l'attuale disponibilità di coppie istruzione-risposta nel dominio visione-linguaggio, in termini di quantità, diversità e creatività, rimane limitata, rappresentando una sfida per la generalizzazione dei VLM interattivi. Presentiamo qui MultI-Modal In-Context Instruction Tuning (MIMIC-IT), un dataset che comprende 2,8 milioni di coppie istruzione-risposta multimodali, con 2,2 milioni di istruzioni uniche derivate da immagini e video. Ogni coppia è accompagnata da informazioni contestuali multimodali, formando contesti conversazionali mirati a potenziare i VLM nella percezione, ragionamento e pianificazione. Il processo di raccolta delle istruzioni-risposte, denominato Syphus, è scalato utilizzando una pipeline di annotazione automatica che combina l'esperienza umana con le capacità di GPT. Utilizzando il dataset MIMIC-IT, abbiamo addestrato un grande VLM chiamato Otter. Sulla base di valutazioni estensive condotte su benchmark visione-linguaggio, è stato osservato che Otter dimostra una notevole competenza nella percezione multimodale, nel ragionamento e nell'apprendimento contestuale. La valutazione umana rivela che si allinea efficacemente alle intenzioni dell'utente. Rilasciamo il dataset MIMIC-IT, la pipeline di raccolta istruzioni-risposte, i benchmark e il modello Otter.
English
High-quality instructions and responses are essential for the zero-shot
performance of large language models on interactive natural language tasks. For
interactive vision-language tasks involving intricate visual scenes, a large
quantity of diverse and creative instruction-response pairs should be
imperative to tune vision-language models (VLMs). Nevertheless, the current
availability of vision-language instruction-response pairs in terms of
quantity, diversity, and creativity remains limited, posing challenges to the
generalization of interactive VLMs. Here we present MultI-Modal In-Context
Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal
instruction-response pairs, with 2.2 million unique instructions derived from
images and videos. Each pair is accompanied by multi-modal in-context
information, forming conversational contexts aimed at empowering VLMs in
perception, reasoning, and planning. The instruction-response collection
process, dubbed as Syphus, is scaled using an automatic annotation pipeline
that combines human expertise with GPT's capabilities. Using the MIMIC-IT
dataset, we train a large VLM named Otter. Based on extensive evaluations
conducted on vision-language benchmarks, it has been observed that Otter
demonstrates remarkable proficiency in multi-modal perception, reasoning, and
in-context learning. Human evaluation reveals it effectively aligns with the
user's intentions. We release the MIMIC-IT dataset, instruction-response
collection pipeline, benchmarks, and the Otter model.