CoLLaVO: Modelo de Lenguaje y Visión a Gran Escala Crayon
CoLLaVO: Crayon Large Language and Vision mOdel
February 17, 2024
Autores: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI
Resumen
El notable éxito de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y el ajuste por instrucción impulsan la evolución de los Modelos de Visión y Lenguaje (VLMs) hacia un modelo versátil de propósito general. Sin embargo, aún no se ha explorado si los VLMs actuales poseen verdaderamente capacidades de comprensión de imágenes a nivel de objetos, determinadas por preguntas como "¿qué objetos hay en la imagen?" o "¿qué objeto corresponde a un cuadro delimitador especificado?". Nuestros hallazgos revelan que las capacidades de comprensión de imágenes de los VLMs actuales están fuertemente correlacionadas con su rendimiento en tareas de Visión y Lenguaje (VL) en modo zero-shot. Esto sugiere que priorizar la comprensión básica de imágenes es crucial para que los VLMs sobresalgan en tareas de VL. Para mejorar la comprensión de imágenes a nivel de objetos, proponemos el Modelo de Lenguaje y Visión de Gran Escala Crayon (CoLLaVO), que incorpora el ajuste por instrucción con indicaciones crayon como un nuevo esquema de ajuste de indicaciones visuales basado en mapas de color panópticos. Además, presentamos una estrategia de aprendizaje de Doble QLoRA para preservar la comprensión de imágenes a nivel de objetos sin olvidarla durante el ajuste por instrucción visual, logrando así un avance significativo en numerosos benchmarks de VL en modo zero-shot.
English
The remarkable success of Large Language Models (LLMs) and instruction tuning
drives the evolution of Vision Language Models (VLMs) towards a versatile
general-purpose model. Yet, it remains unexplored whether current VLMs
genuinely possess quality object-level image understanding capabilities
determined from 'what objects are in the image?' or 'which object corresponds
to a specified bounding box?'. Our findings reveal that the image understanding
capabilities of current VLMs are strongly correlated with their zero-shot
performance on Vision Language (VL) tasks. This suggests that prioritizing
basic image understanding is crucial for VLMs to excel at VL tasks. To enhance
object-level image understanding, we propose Crayon Large Language and Vision
mOdel (CoLLaVO), which incorporates instruction tuning with crayon prompt as a
new visual prompt tuning scheme based on panoptic color maps. Furthermore, we
present a learning strategy of Dual QLoRA to preserve object-level image
understanding without forgetting it during visual instruction tuning, thereby
achieving a significant leap in zero-shot numerous VL benchmarks.