SVIT: Opschaling van Visueel Instructie Afstemmen
SVIT: Scaling up Visual Instruction Tuning
July 9, 2023
Auteurs: Bo Zhao, Boya Wu, Tiejun Huang
cs.AI
Samenvatting
Dankzij de opkomst van foundation-modellen zijn grote taal- en visuele modellen geïntegreerd om multimodale vaardigheden te verwerven, zoals visuele beschrijvingen, dialoog en vraag-antwoordinteracties. Hoewel bestaande multimodale modellen indrukwekkende prestaties vertonen op het gebied van visueel begrip en redeneren, blijven hun beperkingen grotendeels onontgonnen vanwege het gebrek aan hoogwaardige instructieafstemmingsdata. Om de grenzen van multimodale mogelijkheden te verleggen, schalen we Visual Instruction Tuning (SVIT) op door een dataset te construeren van 3,2 miljoen visuele instructieafstemmingsdata, waaronder 1,6 miljoen conversatievraag-antwoordparen (QA), 1,6 miljoen complexe redeneer-QA-paren en 106.000 gedetailleerde beeldbeschrijvingen. Naast de omvang wordt de voorgestelde dataset ook gekenmerkt door hoge kwaliteit en rijke diversiteit, die wordt gegenereerd door GPT-4 aan te sturen met uitgebreide handmatige annotaties van afbeeldingen. We verifiëren empirisch dat het trainen van multimodale modellen op SVIT de multimodale prestaties aanzienlijk kan verbeteren op het gebied van visuele waarneming, redeneren en plannen.
English
Thanks to the emerging of foundation models, the large language and vision
models are integrated to acquire the multimodal ability of visual captioning,
dialogue, question answering, etc. Although existing multimodal models present
impressive performance of visual understanding and reasoning, their limits are
still largely under-explored due to the scarcity of high-quality instruction
tuning data. To push the limits of multimodal capability, we Sale up Visual
Instruction Tuning (SVIT) by constructing a dataset of 3.2 million visual
instruction tuning data including 1.6M conversation question-answer (QA) pairs
and 1.6M complex reasoning QA pairs and 106K detailed image descriptions.
Besides the volume, the proposed dataset is also featured by the high quality
and rich diversity, which is generated by prompting GPT-4 with the abundant
manual annotations of images. We empirically verify that training multimodal
models on SVIT can significantly improve the multimodal performance in terms of
visual perception, reasoning and planing.