ChatPaper.aiChatPaper

MIMIC-IT: Multi-modale In-Context-Instruktionsfeinabstimmung

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

June 8, 2023
Autoren: Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI

Zusammenfassung

Hochwertige Anweisungen und Antworten sind entscheidend für die Zero-Shot-Leistung großer Sprachmodelle bei interaktiven Aufgaben in natürlicher Sprache. Für interaktive Aufgaben im Bereich Vision-Language, die komplexe visuelle Szenen beinhalten, ist eine große Menge an vielfältigen und kreativen Anweisungs-Antwort-Paaren unerlässlich, um Vision-Language-Modelle (VLMs) zu optimieren. Dennoch ist die derzeitige Verfügbarkeit von Vision-Language-Anweisungs-Antwort-Paaren in Bezug auf Menge, Vielfalt und Kreativität begrenzt, was die Generalisierung interaktiver VLMs erschwert. Hier präsentieren wir MultI-Modal In-Context Instruction Tuning (MIMIC-IT), einen Datensatz, der 2,8 Millionen multimodale Anweisungs-Antwort-Paare umfasst, mit 2,2 Millionen einzigartigen Anweisungen, die aus Bildern und Videos abgeleitet wurden. Jedes Paar wird durch multimodale Kontextinformationen ergänzt, die Gesprächskontexte bilden, die darauf abzielen, VLMs in Wahrnehmung, logischem Denken und Planung zu stärken. Der Prozess der Anweisungs-Antwort-Sammlung, genannt Syphus, wird durch eine automatische Annotationspipeline skaliert, die menschliche Expertise mit den Fähigkeiten von GPT kombiniert. Mit dem MIMIC-IT-Datensatz trainieren wir ein großes VLM namens Otter. Basierend auf umfangreichen Bewertungen, die auf Vision-Language-Benchmarks durchgeführt wurden, wurde beobachtet, dass Otter bemerkenswerte Fähigkeiten in multimodaler Wahrnehmung, logischem Denken und In-Context-Lernen zeigt. Die menschliche Bewertung zeigt, dass es effektiv mit den Absichten des Benutzers übereinstimmt. Wir veröffentlichen den MIMIC-IT-Datensatz, die Anweisungs-Antwort-Sammlungspipeline, Benchmarks und das Otter-Modell.
English
High-quality instructions and responses are essential for the zero-shot performance of large language models on interactive natural language tasks. For interactive vision-language tasks involving intricate visual scenes, a large quantity of diverse and creative instruction-response pairs should be imperative to tune vision-language models (VLMs). Nevertheless, the current availability of vision-language instruction-response pairs in terms of quantity, diversity, and creativity remains limited, posing challenges to the generalization of interactive VLMs. Here we present MultI-Modal In-Context Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal instruction-response pairs, with 2.2 million unique instructions derived from images and videos. Each pair is accompanied by multi-modal in-context information, forming conversational contexts aimed at empowering VLMs in perception, reasoning, and planning. The instruction-response collection process, dubbed as Syphus, is scaled using an automatic annotation pipeline that combines human expertise with GPT's capabilities. Using the MIMIC-IT dataset, we train a large VLM named Otter. Based on extensive evaluations conducted on vision-language benchmarks, it has been observed that Otter demonstrates remarkable proficiency in multi-modal perception, reasoning, and in-context learning. Human evaluation reveals it effectively aligns with the user's intentions. We release the MIMIC-IT dataset, instruction-response collection pipeline, benchmarks, and the Otter model.
PDF110December 15, 2024