MIMIC-IT: Multi-Modale In-Context Instructieafstemming
MIMIC-IT: Multi-Modal In-Context Instruction Tuning
June 8, 2023
Auteurs: Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI
Samenvatting
Hoogwaardige instructies en reacties zijn essentieel voor de zero-shot
prestaties van grote taalmodelen bij interactieve natuurlijke-taaltaken. Voor
interactieve visie-taaltaken die complexe visuele scènes omvatten, is een grote
hoeveelheid diverse en creatieve instructie-reactieparen cruciaal om
visie-taalmodelen (VLMs) af te stemmen. Desalniettemin blijft de huidige
beschikbaarheid van visie-taal-instructie-reactieparen in termen van
hoeveelheid, diversiteit en creativiteit beperkt, wat uitdagingen oplevert voor
de generalisatie van interactieve VLMs. Hier presenteren we MultI-Modal In-Context
Instruction Tuning (MIMIC-IT), een dataset bestaande uit 2,8 miljoen multimodale
instructie-reactieparen, met 2,2 miljoen unieke instructies afgeleid van
afbeeldingen en video's. Elk paar wordt vergezeld door multimodale in-context
informatie, waardoor conversatiecontexten ontstaan die bedoeld zijn om VLMs te
empoweren in perceptie, redenering en planning. Het verzamelproces van
instructie-reactieparen, genaamd Syphus, wordt opgeschaald met behulp van een
automatische annotatiepijplijn die menselijke expertise combineert met de
mogelijkheden van GPT. Met behulp van de MIMIC-IT-dataset trainen we een groot
VLM genaamd Otter. Op basis van uitgebreide evaluaties uitgevoerd op
visie-taalbenchmarks, is gebleken dat Otter opmerkelijke vaardigheden vertoont
in multimodale perceptie, redenering en in-context leren. Menselijke evaluatie
laat zien dat het effectief aansluit bij de intenties van de gebruiker. We
publiceren de MIMIC-IT-dataset, de instructie-reactieverzamelingspijplijn,
benchmarks en het Otter-model.
English
High-quality instructions and responses are essential for the zero-shot
performance of large language models on interactive natural language tasks. For
interactive vision-language tasks involving intricate visual scenes, a large
quantity of diverse and creative instruction-response pairs should be
imperative to tune vision-language models (VLMs). Nevertheless, the current
availability of vision-language instruction-response pairs in terms of
quantity, diversity, and creativity remains limited, posing challenges to the
generalization of interactive VLMs. Here we present MultI-Modal In-Context
Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal
instruction-response pairs, with 2.2 million unique instructions derived from
images and videos. Each pair is accompanied by multi-modal in-context
information, forming conversational contexts aimed at empowering VLMs in
perception, reasoning, and planning. The instruction-response collection
process, dubbed as Syphus, is scaled using an automatic annotation pipeline
that combines human expertise with GPT's capabilities. Using the MIMIC-IT
dataset, we train a large VLM named Otter. Based on extensive evaluations
conducted on vision-language benchmarks, it has been observed that Otter
demonstrates remarkable proficiency in multi-modal perception, reasoning, and
in-context learning. Human evaluation reveals it effectively aligns with the
user's intentions. We release the MIMIC-IT dataset, instruction-response
collection pipeline, benchmarks, and the Otter model.