ChatPaper.aiChatPaper

CoLLaVO: Crayon Groot Taal- en Visie Model

CoLLaVO: Crayon Large Language and Vision mOdel

February 17, 2024
Auteurs: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI

Samenvatting

De opmerkelijke successen van Large Language Models (LLM's) en instructie-afstemming drijven de evolutie van Vision Language Models (VLM's) richting een veelzijdig model voor algemene doeleinden. Toch blijft het onbekend of huidige VLM's daadwerkelijk kwalitatief hoogstaande objectniveau-beeldbegrip bezitten, bepaald door vragen als 'welke objecten bevinden zich in de afbeelding?' of 'welk object correspondeert met een gespecificeerde begrenzingsbox?'. Onze bevindingen tonen aan dat het beeldbegrip van huidige VLM's sterk gecorreleerd is met hun zero-shot prestaties op Vision Language (VL)-taken. Dit suggereert dat het prioriteren van basisbeeldbegrip cruciaal is voor VLM's om uit te blinken in VL-taken. Om objectniveau-beeldbegrip te verbeteren, stellen we Crayon Large Language and Vision Model (CoLLaVO) voor, dat instructie-afstemming integreert met crayon prompts als een nieuw visueel prompt-afstemmingsschema gebaseerd op panoptische kleurkaarten. Daarnaast presenteren we een leerstrategie van Dual QLoRA om objectniveau-beeldbegrip te behouden zonder het te vergeten tijdens visuele instructie-afstemming, waardoor een significante sprong wordt gemaakt in zero-shot prestaties op talrijke VL-benchmarks.
English
The remarkable success of Large Language Models (LLMs) and instruction tuning drives the evolution of Vision Language Models (VLMs) towards a versatile general-purpose model. Yet, it remains unexplored whether current VLMs genuinely possess quality object-level image understanding capabilities determined from 'what objects are in the image?' or 'which object corresponds to a specified bounding box?'. Our findings reveal that the image understanding capabilities of current VLMs are strongly correlated with their zero-shot performance on Vision Language (VL) tasks. This suggests that prioritizing basic image understanding is crucial for VLMs to excel at VL tasks. To enhance object-level image understanding, we propose Crayon Large Language and Vision mOdel (CoLLaVO), which incorporates instruction tuning with crayon prompt as a new visual prompt tuning scheme based on panoptic color maps. Furthermore, we present a learning strategy of Dual QLoRA to preserve object-level image understanding without forgetting it during visual instruction tuning, thereby achieving a significant leap in zero-shot numerous VL benchmarks.
PDF226December 15, 2024