SVIT: Escalando el Ajuste Fino de Instrucciones Visuales
SVIT: Scaling up Visual Instruction Tuning
July 9, 2023
Autores: Bo Zhao, Boya Wu, Tiejun Huang
cs.AI
Resumen
Gracias al surgimiento de los modelos fundacionales, los grandes modelos de lenguaje y visión se han integrado para adquirir la capacidad multimodal de subtitulado visual, diálogo, respuesta a preguntas, etc. Aunque los modelos multimodales existentes presentan un rendimiento impresionante en comprensión y razonamiento visual, sus límites aún están en gran parte sin explorar debido a la escasez de datos de ajuste instruccional de alta calidad. Para superar los límites de la capacidad multimodal, escalamos el Ajuste Instruccional Visual (SVIT) construyendo un conjunto de datos de 3.2 millones de datos de ajuste instruccional visual, que incluyen 1.6 millones de pares de preguntas y respuestas (QA) conversacionales, 1.6 millones de pares de QA de razonamiento complejo y 106 mil descripciones detalladas de imágenes. Además del volumen, el conjunto de datos propuesto también se caracteriza por su alta calidad y rica diversidad, generada mediante la solicitud a GPT-4 con abundantes anotaciones manuales de imágenes. Verificamos empíricamente que entrenar modelos multimodales en SVIT puede mejorar significativamente el rendimiento multimodal en términos de percepción visual, razonamiento y planificación.
English
Thanks to the emerging of foundation models, the large language and vision
models are integrated to acquire the multimodal ability of visual captioning,
dialogue, question answering, etc. Although existing multimodal models present
impressive performance of visual understanding and reasoning, their limits are
still largely under-explored due to the scarcity of high-quality instruction
tuning data. To push the limits of multimodal capability, we Sale up Visual
Instruction Tuning (SVIT) by constructing a dataset of 3.2 million visual
instruction tuning data including 1.6M conversation question-answer (QA) pairs
and 1.6M complex reasoning QA pairs and 106K detailed image descriptions.
Besides the volume, the proposed dataset is also featured by the high quality
and rich diversity, which is generated by prompting GPT-4 with the abundant
manual annotations of images. We empirically verify that training multimodal
models on SVIT can significantly improve the multimodal performance in terms of
visual perception, reasoning and planing.