ChatPaper.aiChatPaper

CoLLaVO: Crayon Großes Sprach- und Bildmodell

CoLLaVO: Crayon Large Language and Vision mOdel

February 17, 2024
papers.authors: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI

papers.abstract

Der bemerkenswerte Erfolg von Large Language Models (LLMs) und Instruction Tuning treibt die Entwicklung von Vision Language Models (VLMs) hin zu einem vielseitigen Allzweckmodell voran. Dennoch bleibt unerforscht, ob aktuelle VLMs tatsächlich qualitativ hochwertige Fähigkeiten zur Objekterkennung in Bildern besitzen, die sich an Fragen wie „Welche Objekte sind im Bild enthalten?“ oder „Welches Objekt entspricht einem bestimmten Begrenzungsrahmen?“ messen lassen. Unsere Ergebnisse zeigen, dass die Bildverständnisfähigkeiten aktueller VLMs stark mit ihrer Zero-Shot-Leistung bei Vision-Language (VL)-Aufgaben korrelieren. Dies legt nahe, dass die Priorisierung grundlegender Bildverständnisfähigkeiten entscheidend ist, damit VLMs bei VL-Aufgaben hervorstechen können. Um die Objekterkennung in Bildern zu verbessern, schlagen wir Crayon Large Language and Vision Model (CoLLaVO) vor, das Instruction Tuning mit Crayon-Prompts als neues visuelles Prompt-Tuning-Schema auf der Grundlage von panoptischen Farbkarten integriert. Darüber hinaus präsentieren wir eine Lernstrategie namens Dual QLoRA, die die Objekterkennung in Bildern bewahrt, ohne sie während des visuellen Instruction Tunings zu vergessen, wodurch ein signifikanter Sprung in der Zero-Shot-Leistung bei zahlreichen VL-Benchmarks erreicht wird.
English
The remarkable success of Large Language Models (LLMs) and instruction tuning drives the evolution of Vision Language Models (VLMs) towards a versatile general-purpose model. Yet, it remains unexplored whether current VLMs genuinely possess quality object-level image understanding capabilities determined from 'what objects are in the image?' or 'which object corresponds to a specified bounding box?'. Our findings reveal that the image understanding capabilities of current VLMs are strongly correlated with their zero-shot performance on Vision Language (VL) tasks. This suggests that prioritizing basic image understanding is crucial for VLMs to excel at VL tasks. To enhance object-level image understanding, we propose Crayon Large Language and Vision mOdel (CoLLaVO), which incorporates instruction tuning with crayon prompt as a new visual prompt tuning scheme based on panoptic color maps. Furthermore, we present a learning strategy of Dual QLoRA to preserve object-level image understanding without forgetting it during visual instruction tuning, thereby achieving a significant leap in zero-shot numerous VL benchmarks.
PDF236December 15, 2024