CoLLaVO: Modelo de Linguagem e Visão em Grande Escala Crayon
CoLLaVO: Crayon Large Language and Vision mOdel
February 17, 2024
Autores: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI
Resumo
O notável sucesso dos Modelos de Linguagem de Grande Escala (LLMs) e do ajuste por instrução impulsiona a evolução dos Modelos de Visão e Linguagem (VLMs) em direção a um modelo versátil de propósito geral. No entanto, ainda não foi explorado se os VLMs atuais realmente possuem capacidades de compreensão de imagens em nível de objeto de qualidade, determinadas por perguntas como 'quais objetos estão na imagem?' ou 'qual objeto corresponde a uma caixa delimitadora especificada?'. Nossas descobertas revelam que as capacidades de compreensão de imagens dos VLMs atuais estão fortemente correlacionadas com seu desempenho zero-shot em tarefas de Visão e Linguagem (VL). Isso sugere que priorizar a compreensão básica de imagens é crucial para que os VLMs se destaquem em tarefas de VL. Para aprimorar a compreensão de imagens em nível de objeto, propomos o Crayon Large Language and Vision Model (CoLLaVO), que incorpora o ajuste por instrução com prompt de giz de cera como um novo esquema de ajuste de prompt visual baseado em mapas de cores panópticos. Além disso, apresentamos uma estratégia de aprendizado de Dual QLoRA para preservar a compreensão de imagens em nível de objeto sem esquecê-la durante o ajuste visual por instrução, alcançando assim um salto significativo em benchmarks zero-shot de diversas tarefas de VL.
English
The remarkable success of Large Language Models (LLMs) and instruction tuning
drives the evolution of Vision Language Models (VLMs) towards a versatile
general-purpose model. Yet, it remains unexplored whether current VLMs
genuinely possess quality object-level image understanding capabilities
determined from 'what objects are in the image?' or 'which object corresponds
to a specified bounding box?'. Our findings reveal that the image understanding
capabilities of current VLMs are strongly correlated with their zero-shot
performance on Vision Language (VL) tasks. This suggests that prioritizing
basic image understanding is crucial for VLMs to excel at VL tasks. To enhance
object-level image understanding, we propose Crayon Large Language and Vision
mOdel (CoLLaVO), which incorporates instruction tuning with crayon prompt as a
new visual prompt tuning scheme based on panoptic color maps. Furthermore, we
present a learning strategy of Dual QLoRA to preserve object-level image
understanding without forgetting it during visual instruction tuning, thereby
achieving a significant leap in zero-shot numerous VL benchmarks.