CoLLaVO: クレヨン大規模言語視覚モデル
CoLLaVO: Crayon Large Language and Vision mOdel
February 17, 2024
著者: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI
要旨
大規模言語モデル(LLMs)と指示チューニングの目覚ましい成功は、視覚言語モデル(VLMs)の進化を汎用性の高い汎用モデルへと導いています。しかし、現在のVLMsが「画像内にどのような物体が存在するか?」や「指定されたバウンディングボックスに対応する物体はどれか?」といった、質の高い物体レベルの画像理解能力を真に備えているかどうかは未だに検証されていません。我々の研究結果は、現在のVLMsの画像理解能力が、視覚言語(VL)タスクにおけるゼロショット性能と強く相関していることを明らかにしています。これは、VLMsがVLタスクで優れた性能を発揮するためには、基本的な画像理解を優先することが重要であることを示唆しています。物体レベルの画像理解を向上させるために、我々はパノプティックカラーマップに基づく新しい視覚プロンプトチューニング手法としてクレヨンプロンプトを組み込んだCrayon Large Language and Vision mOdel(CoLLaVO)を提案します。さらに、視覚指示チューニング中に物体レベルの画像理解を忘れることなく保持するための学習戦略としてDual QLoRAを提示し、これにより多数のVLベンチマークにおけるゼロショット性能の大幅な向上を達成しました。
English
The remarkable success of Large Language Models (LLMs) and instruction tuning
drives the evolution of Vision Language Models (VLMs) towards a versatile
general-purpose model. Yet, it remains unexplored whether current VLMs
genuinely possess quality object-level image understanding capabilities
determined from 'what objects are in the image?' or 'which object corresponds
to a specified bounding box?'. Our findings reveal that the image understanding
capabilities of current VLMs are strongly correlated with their zero-shot
performance on Vision Language (VL) tasks. This suggests that prioritizing
basic image understanding is crucial for VLMs to excel at VL tasks. To enhance
object-level image understanding, we propose Crayon Large Language and Vision
mOdel (CoLLaVO), which incorporates instruction tuning with crayon prompt as a
new visual prompt tuning scheme based on panoptic color maps. Furthermore, we
present a learning strategy of Dual QLoRA to preserve object-level image
understanding without forgetting it during visual instruction tuning, thereby
achieving a significant leap in zero-shot numerous VL benchmarks.Summary
AI-Generated Summary