CoLLaVO: Modello Linguistico e Visivo su Larga Scala Crayon
CoLLaVO: Crayon Large Language and Vision mOdel
February 17, 2024
Autori: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI
Abstract
Il notevole successo dei Large Language Models (LLM) e del fine-tuning su istruzioni guida l'evoluzione dei Vision Language Models (VLM) verso un modello versatile e di uso generale. Tuttavia, rimane inesplorato se gli attuali VLM possiedano effettivamente capacità di comprensione dell'immagine a livello oggettivo, determinabili da domande come "quali oggetti sono presenti nell'immagine?" o "quale oggetto corrisponde a un riquadro di delimitazione specificato?". Le nostre scoperte rivelano che le capacità di comprensione delle immagini degli attuali VLM sono fortemente correlate con le loro prestazioni zero-shot su compiti di Vision Language (VL). Ciò suggerisce che dare priorità alla comprensione di base delle immagini è cruciale affinché i VLM eccellano nei compiti VL. Per migliorare la comprensione delle immagini a livello oggettivo, proponiamo Crayon Large Language and Vision mOdel (CoLLaVO), che incorpora il fine-tuning su istruzioni con prompt a pastello come un nuovo schema di sintonizzazione dei prompt visivi basato su mappe di colori panoptiche. Inoltre, presentiamo una strategia di apprendimento chiamata Dual QLoRA per preservare la comprensione delle immagini a livello oggettivo senza dimenticarla durante il fine-tuning su istruzioni visive, ottenendo così un significativo balzo in avanti nei numerosi benchmark VL zero-shot.
English
The remarkable success of Large Language Models (LLMs) and instruction tuning
drives the evolution of Vision Language Models (VLMs) towards a versatile
general-purpose model. Yet, it remains unexplored whether current VLMs
genuinely possess quality object-level image understanding capabilities
determined from 'what objects are in the image?' or 'which object corresponds
to a specified bounding box?'. Our findings reveal that the image understanding
capabilities of current VLMs are strongly correlated with their zero-shot
performance on Vision Language (VL) tasks. This suggests that prioritizing
basic image understanding is crucial for VLMs to excel at VL tasks. To enhance
object-level image understanding, we propose Crayon Large Language and Vision
mOdel (CoLLaVO), which incorporates instruction tuning with crayon prompt as a
new visual prompt tuning scheme based on panoptic color maps. Furthermore, we
present a learning strategy of Dual QLoRA to preserve object-level image
understanding without forgetting it during visual instruction tuning, thereby
achieving a significant leap in zero-shot numerous VL benchmarks.