SVIT : Mise à l'échelle de l'ajustement par instruction visuelle
SVIT: Scaling up Visual Instruction Tuning
July 9, 2023
Auteurs: Bo Zhao, Boya Wu, Tiejun Huang
cs.AI
Résumé
Grâce à l'émergence des modèles de base, les grands modèles de langage et de vision sont intégrés pour acquérir des capacités multimodales telles que la génération de légendes visuelles, le dialogue, les réponses aux questions, etc. Bien que les modèles multimodaux existants présentent des performances impressionnantes en matière de compréhension et de raisonnement visuels, leurs limites restent largement inexplorées en raison de la rareté des données de réglage d'instructions de haute qualité. Pour repousser les limites des capacités multimodales, nous développons le réglage d'instructions visuelles à grande échelle (SVIT) en construisant un ensemble de données de 3,2 millions de points de réglage d'instructions visuelles, comprenant 1,6 million de paires question-réponse (QA) conversationnelles, 1,6 million de paires QA de raisonnement complexe et 106 000 descriptions détaillées d'images. Outre son volume, l'ensemble de données proposé se distingue également par sa haute qualité et sa grande diversité, générées en sollicitant GPT-4 avec des annotations manuelles abondantes d'images. Nous vérifions empiriquement que l'entraînement de modèles multimodaux sur SVIT peut considérablement améliorer les performances multimodales en termes de perception visuelle, de raisonnement et de planification.
English
Thanks to the emerging of foundation models, the large language and vision
models are integrated to acquire the multimodal ability of visual captioning,
dialogue, question answering, etc. Although existing multimodal models present
impressive performance of visual understanding and reasoning, their limits are
still largely under-explored due to the scarcity of high-quality instruction
tuning data. To push the limits of multimodal capability, we Sale up Visual
Instruction Tuning (SVIT) by constructing a dataset of 3.2 million visual
instruction tuning data including 1.6M conversation question-answer (QA) pairs
and 1.6M complex reasoning QA pairs and 106K detailed image descriptions.
Besides the volume, the proposed dataset is also featured by the high quality
and rich diversity, which is generated by prompting GPT-4 with the abundant
manual annotations of images. We empirically verify that training multimodal
models on SVIT can significantly improve the multimodal performance in terms of
visual perception, reasoning and planing.