CoLLaVO: Modelo de Linguagem e Visão em Grande Escala Crayon

Resumo

O notável sucesso dos Modelos de Linguagem de Grande Escala (LLMs) e do ajuste por instrução impulsiona a evolução dos Modelos de Visão e Linguagem (VLMs) em direção a um modelo versátil de propósito geral. No entanto, ainda não foi explorado se os VLMs atuais realmente possuem capacidades de compreensão de imagens em nível de objeto de qualidade, determinadas por perguntas como 'quais objetos estão na imagem?' ou 'qual objeto corresponde a uma caixa delimitadora especificada?'. Nossas descobertas revelam que as capacidades de compreensão de imagens dos VLMs atuais estão fortemente correlacionadas com seu desempenho zero-shot em tarefas de Visão e Linguagem (VL). Isso sugere que priorizar a compreensão básica de imagens é crucial para que os VLMs se destaquem em tarefas de VL. Para aprimorar a compreensão de imagens em nível de objeto, propomos o Crayon Large Language and Vision Model (CoLLaVO), que incorpora o ajuste por instrução com prompt de giz de cera como um novo esquema de ajuste de prompt visual baseado em mapas de cores panópticos. Além disso, apresentamos uma estratégia de aprendizado de Dual QLoRA para preservar a compreensão de imagens em nível de objeto sem esquecê-la durante o ajuste visual por instrução, alcançando assim um salto significativo em benchmarks zero-shot de diversas tarefas de VL.

English

The remarkable success of Large Language Models (LLMs) and instruction tuning drives the evolution of Vision Language Models (VLMs) towards a versatile general-purpose model. Yet, it remains unexplored whether current VLMs genuinely possess quality object-level image understanding capabilities determined from 'what objects are in the image?' or 'which object corresponds to a specified bounding box?'. Our findings reveal that the image understanding capabilities of current VLMs are strongly correlated with their zero-shot performance on Vision Language (VL) tasks. This suggests that prioritizing basic image understanding is crucial for VLMs to excel at VL tasks. To enhance object-level image understanding, we propose Crayon Large Language and Vision mOdel (CoLLaVO), which incorporates instruction tuning with crayon prompt as a new visual prompt tuning scheme based on panoptic color maps. Furthermore, we present a learning strategy of Dual QLoRA to preserve object-level image understanding without forgetting it during visual instruction tuning, thereby achieving a significant leap in zero-shot numerous VL benchmarks.

CoLLaVO: Modelo de Linguagem e Visão em Grande Escala Crayon

CoLLaVO: Crayon Large Language and Vision mOdel

Resumo

Support