VCoder: Veelzijdige Vision Encoders voor Multimodale Grote Taalmodellen
VCoder: Versatile Vision Encoders for Multimodal Large Language Models
December 21, 2023
Auteurs: Jitesh Jain, Jianwei Yang, Humphrey Shi
cs.AI
Samenvatting
Mensen beschikken over de opmerkelijke vaardigheid van Visuele Waarneming, het vermogen om te zien en het geziene te begrijpen, wat hen helpt de visuele wereld te interpreteren en vervolgens te redeneren. Multimodale Large Language Models (MLLM) hebben recent indrukwekkende prestaties geleverd op visueel-taalkundige taken, variërend van visuele vraag-antwoordtaken en beeldbeschrijving tot visueel redeneren en beeldgeneratie. Wanneer ze echter worden gevraagd om entiteiten in een gegeven afbeelding te identificeren of te tellen (waarnemen), falen bestaande MLLM-systemen. Om te werken aan de ontwikkeling van een nauwkeurig MLLM-systeem voor waarneming en redenering, stellen we voor om Versatile Vision Encoders (VCoder) te gebruiken als waarnemingsogen voor Multimodale LLMs. We voeden de VCoder met waarnemingsmodaliteiten zoals segmentatie- of dieptekaarten, waardoor de waarnemingsvaardigheden van de MLLM worden verbeterd. Ten tweede maken we gebruik van afbeeldingen uit COCO en uitvoer van kant-en-klare visuele waarnemingsmodellen om ons COCO Segmentation Text (COST) dataset te creëren voor het trainen en evalueren van MLLMs op de taak van objectwaarneming. Ten derde introduceren we metrieken om de objectwaarnemingsvaardigheden van MLLMs op ons COST-dataset te beoordelen. Tot slot leveren we uitgebreid experimenteel bewijs dat aantoont dat de VCoder verbeterde objectniveau-waarnemingsvaardigheden heeft ten opzichte van bestaande Multimodale LLMs, inclusief GPT-4V. We maken onze dataset, code en modellen openbaar om onderzoek te bevorderen. We openbaren onze code op https://github.com/SHI-Labs/VCoder.
English
Humans possess the remarkable skill of Visual Perception, the ability to see
and understand the seen, helping them make sense of the visual world and, in
turn, reason. Multimodal Large Language Models (MLLM) have recently achieved
impressive performance on vision-language tasks ranging from visual
question-answering and image captioning to visual reasoning and image
generation. However, when prompted to identify or count (perceive) the entities
in a given image, existing MLLM systems fail. Working towards developing an
accurate MLLM system for perception and reasoning, we propose using Versatile
vision enCoders (VCoder) as perception eyes for Multimodal LLMs. We feed the
VCoder with perception modalities such as segmentation or depth maps, improving
the MLLM's perception abilities. Secondly, we leverage the images from COCO and
outputs from off-the-shelf vision perception models to create our COCO
Segmentation Text (COST) dataset for training and evaluating MLLMs on the
object perception task. Thirdly, we introduce metrics to assess the object
perception abilities in MLLMs on our COST dataset. Lastly, we provide extensive
experimental evidence proving the VCoder's improved object-level perception
skills over existing Multimodal LLMs, including GPT-4V. We open-source our
dataset, code, and models to promote research. We open-source our code at
https://github.com/SHI-Labs/VCoder