SVIT: Scalabilità del Fine-Tuning per Istruzioni Visive
SVIT: Scaling up Visual Instruction Tuning
July 9, 2023
Autori: Bo Zhao, Boya Wu, Tiejun Huang
cs.AI
Abstract
Grazie all'emergere dei modelli di base, i grandi modelli linguistici e visivi sono stati integrati per acquisire capacità multimodali come la descrizione visiva, il dialogo, la risposta a domande, ecc. Sebbene i modelli multimodali esistenti presentino prestazioni impressionanti nella comprensione e nel ragionamento visivo, i loro limiti sono ancora ampiamente inesplorati a causa della scarsità di dati di alta qualità per l'ottimizzazione tramite istruzioni. Per spingere al limite le capacità multimodali, abbiamo ampliato l'ottimizzazione tramite istruzioni visive (SVIT) costruendo un dataset di 3,2 milioni di dati di ottimizzazione tramite istruzioni visive, inclusi 1,6 milioni di coppie domanda-risposta (QA) di conversazione, 1,6 milioni di coppie QA di ragionamento complesso e 106.000 descrizioni dettagliate di immagini. Oltre al volume, il dataset proposto si distingue anche per l'alta qualità e la ricca diversità, generata utilizzando GPT-4 con abbondanti annotazioni manuali delle immagini. Verifichiamo empiricamente che l'addestramento di modelli multimodali su SVIT può migliorare significativamente le prestazioni multimodali in termini di percezione visiva, ragionamento e pianificazione.
English
Thanks to the emerging of foundation models, the large language and vision
models are integrated to acquire the multimodal ability of visual captioning,
dialogue, question answering, etc. Although existing multimodal models present
impressive performance of visual understanding and reasoning, their limits are
still largely under-explored due to the scarcity of high-quality instruction
tuning data. To push the limits of multimodal capability, we Sale up Visual
Instruction Tuning (SVIT) by constructing a dataset of 3.2 million visual
instruction tuning data including 1.6M conversation question-answer (QA) pairs
and 1.6M complex reasoning QA pairs and 106K detailed image descriptions.
Besides the volume, the proposed dataset is also featured by the high quality
and rich diversity, which is generated by prompting GPT-4 with the abundant
manual annotations of images. We empirically verify that training multimodal
models on SVIT can significantly improve the multimodal performance in terms of
visual perception, reasoning and planing.