VCoder: Codificadores Visuales Versátiles para Modelos de Lenguaje Multimodales de Gran Escala
VCoder: Versatile Vision Encoders for Multimodal Large Language Models
December 21, 2023
Autores: Jitesh Jain, Jianwei Yang, Humphrey Shi
cs.AI
Resumen
Los seres humanos poseen la notable habilidad de la Percepción Visual, la capacidad de ver y comprender lo observado, lo que les permite dar sentido al mundo visual y, a su vez, razonar. Los Modelos de Lenguaje Multimodales de Gran Escala (MLLM, por sus siglas en inglés) han logrado recientemente un rendimiento impresionante en tareas de visión y lenguaje, que van desde la respuesta a preguntas visuales y la generación de descripciones de imágenes hasta el razonamiento visual y la generación de imágenes. Sin embargo, cuando se les solicita identificar o contar (percibir) las entidades en una imagen dada, los sistemas MLLM existentes fallan. Con el objetivo de desarrollar un sistema MLLM preciso para la percepción y el razonamiento, proponemos el uso de Codificadores Visuales Versátiles (VCoder) como "ojos perceptivos" para los MLLM. Alimentamos el VCoder con modalidades de percepción, como mapas de segmentación o profundidad, mejorando así las habilidades perceptivas del MLLM. En segundo lugar, aprovechamos las imágenes de COCO y los resultados de modelos de percepción visual preexistentes para crear nuestro conjunto de datos COCO Segmentation Text (COST), destinado a entrenar y evaluar MLLM en la tarea de percepción de objetos. En tercer lugar, introducimos métricas para evaluar las habilidades de percepción de objetos en MLLM utilizando nuestro conjunto de datos COST. Por último, proporcionamos evidencia experimental extensa que demuestra las habilidades mejoradas de percepción a nivel de objeto del VCoder en comparación con los MLLM existentes, incluyendo GPT-4V. Hacemos públicos nuestro conjunto de datos, código y modelos para fomentar la investigación. Nuestro código está disponible en https://github.com/SHI-Labs/VCoder.
English
Humans possess the remarkable skill of Visual Perception, the ability to see
and understand the seen, helping them make sense of the visual world and, in
turn, reason. Multimodal Large Language Models (MLLM) have recently achieved
impressive performance on vision-language tasks ranging from visual
question-answering and image captioning to visual reasoning and image
generation. However, when prompted to identify or count (perceive) the entities
in a given image, existing MLLM systems fail. Working towards developing an
accurate MLLM system for perception and reasoning, we propose using Versatile
vision enCoders (VCoder) as perception eyes for Multimodal LLMs. We feed the
VCoder with perception modalities such as segmentation or depth maps, improving
the MLLM's perception abilities. Secondly, we leverage the images from COCO and
outputs from off-the-shelf vision perception models to create our COCO
Segmentation Text (COST) dataset for training and evaluating MLLMs on the
object perception task. Thirdly, we introduce metrics to assess the object
perception abilities in MLLMs on our COST dataset. Lastly, we provide extensive
experimental evidence proving the VCoder's improved object-level perception
skills over existing Multimodal LLMs, including GPT-4V. We open-source our
dataset, code, and models to promote research. We open-source our code at
https://github.com/SHI-Labs/VCoder