VCoder: Универсальные визуальные кодировщики для мультимодальных больших языковых моделей
VCoder: Versatile Vision Encoders for Multimodal Large Language Models
December 21, 2023
Авторы: Jitesh Jain, Jianwei Yang, Humphrey Shi
cs.AI
Аннотация
Люди обладают удивительной способностью визуального восприятия — умением видеть и понимать увиденное, что помогает им осмысливать визуальный мир и, в свою очередь, рассуждать. Мультимодальные большие языковые модели (MLLM) недавно достигли впечатляющих результатов в задачах, связанных с обработкой визуальной и текстовой информации, таких как визуальные вопросы и ответы, генерация описаний изображений, визуальное рассуждение и создание изображений. Однако, когда их просят идентифицировать или подсчитать (воспринять) объекты на заданном изображении, существующие системы MLLM терпят неудачу. Работая над созданием точной системы MLLM для восприятия и рассуждения, мы предлагаем использовать универсальные визуальные кодировщики (VCoder) в качестве "глаз" для мультимодальных языковых моделей. Мы передаем VCoder данные восприятия, такие как карты сегментации или глубины, что улучшает способности MLLM к восприятию. Во-вторых, мы используем изображения из COCO и выходные данные готовых моделей визуального восприятия для создания нашего набора данных COCO Segmentation Text (COST) для обучения и оценки MLLM на задаче восприятия объектов. В-третьих, мы вводим метрики для оценки способностей MLLM к восприятию объектов на нашем наборе данных COST. Наконец, мы предоставляем обширные экспериментальные доказательства, подтверждающие улучшенные навыки восприятия на уровне объектов VCoder по сравнению с существующими мультимодальными языковыми моделями, включая GPT-4V. Мы открываем исходный код нашего набора данных, кода и моделей для содействия исследованиям. Исходный код доступен по адресу: https://github.com/SHI-Labs/VCoder.
English
Humans possess the remarkable skill of Visual Perception, the ability to see
and understand the seen, helping them make sense of the visual world and, in
turn, reason. Multimodal Large Language Models (MLLM) have recently achieved
impressive performance on vision-language tasks ranging from visual
question-answering and image captioning to visual reasoning and image
generation. However, when prompted to identify or count (perceive) the entities
in a given image, existing MLLM systems fail. Working towards developing an
accurate MLLM system for perception and reasoning, we propose using Versatile
vision enCoders (VCoder) as perception eyes for Multimodal LLMs. We feed the
VCoder with perception modalities such as segmentation or depth maps, improving
the MLLM's perception abilities. Secondly, we leverage the images from COCO and
outputs from off-the-shelf vision perception models to create our COCO
Segmentation Text (COST) dataset for training and evaluating MLLMs on the
object perception task. Thirdly, we introduce metrics to assess the object
perception abilities in MLLMs on our COST dataset. Lastly, we provide extensive
experimental evidence proving the VCoder's improved object-level perception
skills over existing Multimodal LLMs, including GPT-4V. We open-source our
dataset, code, and models to promote research. We open-source our code at
https://github.com/SHI-Labs/VCoder