VCoder : Encodeurs visuels polyvalents pour les grands modèles de langage multimodaux
VCoder: Versatile Vision Encoders for Multimodal Large Language Models
December 21, 2023
Auteurs: Jitesh Jain, Jianwei Yang, Humphrey Shi
cs.AI
Résumé
Les humains possèdent une compétence remarquable : la perception visuelle, cette capacité à voir et à comprendre ce qui est vu, leur permettant de donner un sens au monde visuel et, par conséquent, de raisonner. Les modèles de langage multimodaux de grande envergure (MLLM) ont récemment atteint des performances impressionnantes dans des tâches combinant vision et langage, allant de la réponse à des questions visuelles et de la génération de légendes d'images au raisonnement visuel et à la génération d'images. Cependant, lorsqu'ils sont sollicités pour identifier ou compter (percevoir) les entités dans une image donnée, les systèmes MLLM existants échouent. Dans l'optique de développer un système MLLM précis pour la perception et le raisonnement, nous proposons d'utiliser des encodeurs visuels polyvalents (VCoder) comme "yeux de perception" pour les MLLM multimodaux. Nous alimentons le VCoder avec des modalités de perception telles que des cartes de segmentation ou de profondeur, améliorant ainsi les capacités de perception du MLLM. Deuxièmement, nous exploitons les images de COCO et les sorties de modèles de perception visuelle prêts à l'emploi pour créer notre ensemble de données COCO Segmentation Text (COST), destiné à l'entraînement et à l'évaluation des MLLM sur la tâche de perception d'objets. Troisièmement, nous introduisons des métriques pour évaluer les capacités de perception d'objets des MLLM sur notre ensemble de données COST. Enfin, nous fournissons des preuves expérimentales approfondies démontrant que le VCoder améliore les compétences de perception au niveau des objets par rapport aux MLLM multimodaux existants, y compris GPT-4V. Nous mettons à disposition notre ensemble de données, notre code et nos modèles en open source pour favoriser la recherche. Notre code est accessible à l'adresse suivante : https://github.com/SHI-Labs/VCoder.
English
Humans possess the remarkable skill of Visual Perception, the ability to see
and understand the seen, helping them make sense of the visual world and, in
turn, reason. Multimodal Large Language Models (MLLM) have recently achieved
impressive performance on vision-language tasks ranging from visual
question-answering and image captioning to visual reasoning and image
generation. However, when prompted to identify or count (perceive) the entities
in a given image, existing MLLM systems fail. Working towards developing an
accurate MLLM system for perception and reasoning, we propose using Versatile
vision enCoders (VCoder) as perception eyes for Multimodal LLMs. We feed the
VCoder with perception modalities such as segmentation or depth maps, improving
the MLLM's perception abilities. Secondly, we leverage the images from COCO and
outputs from off-the-shelf vision perception models to create our COCO
Segmentation Text (COST) dataset for training and evaluating MLLMs on the
object perception task. Thirdly, we introduce metrics to assess the object
perception abilities in MLLMs on our COST dataset. Lastly, we provide extensive
experimental evidence proving the VCoder's improved object-level perception
skills over existing Multimodal LLMs, including GPT-4V. We open-source our
dataset, code, and models to promote research. We open-source our code at
https://github.com/SHI-Labs/VCoder