SVIT: Ampliando o Ajuste Fino de Instruções Visuais
SVIT: Scaling up Visual Instruction Tuning
July 9, 2023
Autores: Bo Zhao, Boya Wu, Tiejun Huang
cs.AI
Resumo
Graças ao surgimento dos modelos de base, os grandes modelos de linguagem e visão foram integrados para adquirir a capacidade multimodal de legendagem visual, diálogo, resposta a perguntas, etc. Embora os modelos multimodais existentes apresentem um desempenho impressionante em compreensão e raciocínio visual, seus limites ainda são amplamente inexplorados devido à escassez de dados de ajuste fino de instruções de alta qualidade. Para expandir os limites da capacidade multimodal, nós ampliamos o Ajuste Fino de Instrução Visual (SVIT) construindo um conjunto de dados de 3,2 milhões de dados de ajuste fino de instrução visual, incluindo 1,6 milhão de pares de perguntas e respostas (QA) de conversação, 1,6 milhão de pares de QA de raciocínio complexo e 106 mil descrições detalhadas de imagens. Além do volume, o conjunto de dados proposto também se destaca pela alta qualidade e rica diversidade, gerados ao solicitar ao GPT-4 as abundantes anotações manuais de imagens. Verificamos empiricamente que o treinamento de modelos multimodais no SVIT pode melhorar significativamente o desempenho multimodal em termos de percepção visual, raciocínio e planejamento.
English
Thanks to the emerging of foundation models, the large language and vision
models are integrated to acquire the multimodal ability of visual captioning,
dialogue, question answering, etc. Although existing multimodal models present
impressive performance of visual understanding and reasoning, their limits are
still largely under-explored due to the scarcity of high-quality instruction
tuning data. To push the limits of multimodal capability, we Sale up Visual
Instruction Tuning (SVIT) by constructing a dataset of 3.2 million visual
instruction tuning data including 1.6M conversation question-answer (QA) pairs
and 1.6M complex reasoning QA pairs and 106K detailed image descriptions.
Besides the volume, the proposed dataset is also featured by the high quality
and rich diversity, which is generated by prompting GPT-4 with the abundant
manual annotations of images. We empirically verify that training multimodal
models on SVIT can significantly improve the multimodal performance in terms of
visual perception, reasoning and planing.