SVIT: Масштабирование настройки визуальных инструкций
SVIT: Scaling up Visual Instruction Tuning
July 9, 2023
Авторы: Bo Zhao, Boya Wu, Tiejun Huang
cs.AI
Аннотация
Благодаря появлению фундаментальных моделей, крупные языковые и визуальные модели интегрируются для приобретения мультимодальных способностей, таких как создание визуальных описаний, ведение диалогов, ответы на вопросы и т.д. Хотя существующие мультимодальные модели демонстрируют впечатляющие результаты в области визуального понимания и рассуждений, их ограничения остаются в значительной степени неисследованными из-за недостатка высококачественных данных для настройки инструкций. Чтобы расширить границы мультимодальных возможностей, мы разработали масштабируемую настройку визуальных инструкций (SVIT), создав набор данных из 3,2 миллиона примеров для настройки визуальных инструкций, включая 1,6 миллиона пар вопросов и ответов (QA) для диалогов, 1,6 миллиона пар QA для сложных рассуждений и 106 тысяч детальных описаний изображений. Помимо объема, предложенный набор данных также отличается высоким качеством и богатым разнообразием, так как он был сгенерирован с использованием GPT-4 на основе обильных ручных аннотаций изображений. Мы эмпирически подтверждаем, что обучение мультимодальных моделей на SVIT значительно улучшает их производительность в таких аспектах, как визуальное восприятие, рассуждение и планирование.
English
Thanks to the emerging of foundation models, the large language and vision
models are integrated to acquire the multimodal ability of visual captioning,
dialogue, question answering, etc. Although existing multimodal models present
impressive performance of visual understanding and reasoning, their limits are
still largely under-explored due to the scarcity of high-quality instruction
tuning data. To push the limits of multimodal capability, we Sale up Visual
Instruction Tuning (SVIT) by constructing a dataset of 3.2 million visual
instruction tuning data including 1.6M conversation question-answer (QA) pairs
and 1.6M complex reasoning QA pairs and 106K detailed image descriptions.
Besides the volume, the proposed dataset is also featured by the high quality
and rich diversity, which is generated by prompting GPT-4 with the abundant
manual annotations of images. We empirically verify that training multimodal
models on SVIT can significantly improve the multimodal performance in terms of
visual perception, reasoning and planing.