CoLLaVO : Modèle Crayon pour le Langage et la Vision à Grande Échelle
CoLLaVO: Crayon Large Language and Vision mOdel
February 17, 2024
papers.authors: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI
papers.abstract
Le succès remarquable des modèles de langage de grande taille (LLMs) et du réglage par instruction propulse l'évolution des modèles vision-langage (VLMs) vers un modèle polyvalent à usage général. Cependant, il reste à explorer si les VLMs actuels possèdent véritablement des capacités de compréhension d'image de qualité au niveau des objets, déterminées par des questions telles que "quels objets sont présents dans l'image ?" ou "quel objet correspond à une boîte englobante spécifiée ?". Nos résultats révèlent que les capacités de compréhension d'image des VLMs actuels sont fortement corrélées à leurs performances en zero-shot sur les tâches vision-langage (VL). Cela suggère que la priorisation de la compréhension de base des images est cruciale pour que les VLMs excellent dans les tâches VL. Pour améliorer la compréhension d'image au niveau des objets, nous proposons Crayon Large Language and Vision mOdel (CoLLaVO), qui intègre le réglage par instruction avec un prompt crayon comme nouveau schéma de réglage de prompt visuel basé sur des cartes de couleurs panoptiques. De plus, nous présentons une stratégie d'apprentissage de Dual QLoRA pour préserver la compréhension d'image au niveau des objets sans l'oublier lors du réglage par instruction visuelle, permettant ainsi un bond significatif dans les benchmarks VL en zero-shot.
English
The remarkable success of Large Language Models (LLMs) and instruction tuning
drives the evolution of Vision Language Models (VLMs) towards a versatile
general-purpose model. Yet, it remains unexplored whether current VLMs
genuinely possess quality object-level image understanding capabilities
determined from 'what objects are in the image?' or 'which object corresponds
to a specified bounding box?'. Our findings reveal that the image understanding
capabilities of current VLMs are strongly correlated with their zero-shot
performance on Vision Language (VL) tasks. This suggests that prioritizing
basic image understanding is crucial for VLMs to excel at VL tasks. To enhance
object-level image understanding, we propose Crayon Large Language and Vision
mOdel (CoLLaVO), which incorporates instruction tuning with crayon prompt as a
new visual prompt tuning scheme based on panoptic color maps. Furthermore, we
present a learning strategy of Dual QLoRA to preserve object-level image
understanding without forgetting it during visual instruction tuning, thereby
achieving a significant leap in zero-shot numerous VL benchmarks.