ChatPaper.aiChatPaper

CoLLaVO: Мультимодальная модель больших языковых и визуальных данных Crayon

CoLLaVO: Crayon Large Language and Vision mOdel

February 17, 2024
Авторы: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI

Аннотация

Замечательный успех крупных языковых моделей (LLM) и настройки по инструкциям стимулирует развитие моделей, объединяющих зрение и язык (VLM), в сторону универсальных моделей общего назначения. Однако остается неисследованным, обладают ли современные VLM действительно качественными возможностями понимания объектов на уровне изображения, определяемыми вопросами «какие объекты присутствуют на изображении?» или «какой объект соответствует указанной ограничивающей рамке?». Наши результаты показывают, что способности современных VLM к пониманию изображений тесно связаны с их производительностью на задачах, объединяющих зрение и язык (VL), в условиях zero-shot. Это свидетельствует о том, что приоритетное внимание к базовому пониманию изображений имеет решающее значение для успеха VLM в задачах VL. Для улучшения понимания объектов на уровне изображений мы предлагаем модель Crayon Large Language and Vision mOdel (CoLLaVO), которая включает настройку по инструкциям с использованием подсказок в виде цветных карандашей в качестве новой схемы визуальной настройки на основе панорамных цветовых карт. Кроме того, мы представляем стратегию обучения Dual QLoRA, которая позволяет сохранять понимание объектов на уровне изображения, не забывая его в процессе визуальной настройки по инструкциям, что приводит к значительному прорыву в производительности на множестве бенчмарков VL в условиях zero-shot.
English
The remarkable success of Large Language Models (LLMs) and instruction tuning drives the evolution of Vision Language Models (VLMs) towards a versatile general-purpose model. Yet, it remains unexplored whether current VLMs genuinely possess quality object-level image understanding capabilities determined from 'what objects are in the image?' or 'which object corresponds to a specified bounding box?'. Our findings reveal that the image understanding capabilities of current VLMs are strongly correlated with their zero-shot performance on Vision Language (VL) tasks. This suggests that prioritizing basic image understanding is crucial for VLMs to excel at VL tasks. To enhance object-level image understanding, we propose Crayon Large Language and Vision mOdel (CoLLaVO), which incorporates instruction tuning with crayon prompt as a new visual prompt tuning scheme based on panoptic color maps. Furthermore, we present a learning strategy of Dual QLoRA to preserve object-level image understanding without forgetting it during visual instruction tuning, thereby achieving a significant leap in zero-shot numerous VL benchmarks.

Summary

AI-Generated Summary

PDF236December 15, 2024