VCoder: Codificadores Visuais Versáteis para Modelos de Linguagem Multimodais de Grande Escala
VCoder: Versatile Vision Encoders for Multimodal Large Language Models
December 21, 2023
Autores: Jitesh Jain, Jianwei Yang, Humphrey Shi
cs.AI
Resumo
Os seres humanos possuem a notável habilidade de Percepção Visual, a capacidade de ver e compreender o que é visto, ajudando-os a dar sentido ao mundo visual e, por sua vez, a raciocinar. Modelos de Linguagem Multimodal de Grande Escala (MLLM) recentemente alcançaram desempenho impressionante em tarefas de visão e linguagem, variando de questionamento visual e legendagem de imagens a raciocínio visual e geração de imagens. No entanto, quando solicitados a identificar ou contar (perceber) as entidades em uma determinada imagem, os sistemas MLLM existentes falham. Trabalhando no desenvolvimento de um sistema MLLM preciso para percepção e raciocínio, propomos o uso de Codificadores Visuais Versáteis (VCoder) como olhos de percepção para MLLMs Multimodais. Alimentamos o VCoder com modalidades de percepção, como mapas de segmentação ou profundidade, melhorando as habilidades de percepção do MLLM. Em segundo lugar, utilizamos as imagens do COCO e as saídas de modelos de percepção visual prontos para uso para criar nosso conjunto de dados COCO Segmentation Text (COST) para treinar e avaliar MLLMs na tarefa de percepção de objetos. Em terceiro lugar, introduzimos métricas para avaliar as habilidades de percepção de objetos em MLLMs em nosso conjunto de dados COST. Por fim, fornecemos extensas evidências experimentais que comprovam as habilidades aprimoradas de percepção em nível de objeto do VCoder em relação aos MLLMs Multimodais existentes, incluindo o GPT-4V. Disponibilizamos nosso conjunto de dados, código e modelos em código aberto para promover a pesquisa. Disponibilizamos nosso código em https://github.com/SHI-Labs/VCoder.
English
Humans possess the remarkable skill of Visual Perception, the ability to see
and understand the seen, helping them make sense of the visual world and, in
turn, reason. Multimodal Large Language Models (MLLM) have recently achieved
impressive performance on vision-language tasks ranging from visual
question-answering and image captioning to visual reasoning and image
generation. However, when prompted to identify or count (perceive) the entities
in a given image, existing MLLM systems fail. Working towards developing an
accurate MLLM system for perception and reasoning, we propose using Versatile
vision enCoders (VCoder) as perception eyes for Multimodal LLMs. We feed the
VCoder with perception modalities such as segmentation or depth maps, improving
the MLLM's perception abilities. Secondly, we leverage the images from COCO and
outputs from off-the-shelf vision perception models to create our COCO
Segmentation Text (COST) dataset for training and evaluating MLLMs on the
object perception task. Thirdly, we introduce metrics to assess the object
perception abilities in MLLMs on our COST dataset. Lastly, we provide extensive
experimental evidence proving the VCoder's improved object-level perception
skills over existing Multimodal LLMs, including GPT-4V. We open-source our
dataset, code, and models to promote research. We open-source our code at
https://github.com/SHI-Labs/VCoder