VCoder: Универсальные визуальные кодировщики для мультимодальных больших языковых моделей

Аннотация

Люди обладают удивительной способностью визуального восприятия — умением видеть и понимать увиденное, что помогает им осмысливать визуальный мир и, в свою очередь, рассуждать. Мультимодальные большие языковые модели (MLLM) недавно достигли впечатляющих результатов в задачах, связанных с обработкой визуальной и текстовой информации, таких как визуальные вопросы и ответы, генерация описаний изображений, визуальное рассуждение и создание изображений. Однако, когда их просят идентифицировать или подсчитать (воспринять) объекты на заданном изображении, существующие системы MLLM терпят неудачу. Работая над созданием точной системы MLLM для восприятия и рассуждения, мы предлагаем использовать универсальные визуальные кодировщики (VCoder) в качестве "глаз" для мультимодальных языковых моделей. Мы передаем VCoder данные восприятия, такие как карты сегментации или глубины, что улучшает способности MLLM к восприятию. Во-вторых, мы используем изображения из COCO и выходные данные готовых моделей визуального восприятия для создания нашего набора данных COCO Segmentation Text (COST) для обучения и оценки MLLM на задаче восприятия объектов. В-третьих, мы вводим метрики для оценки способностей MLLM к восприятию объектов на нашем наборе данных COST. Наконец, мы предоставляем обширные экспериментальные доказательства, подтверждающие улучшенные навыки восприятия на уровне объектов VCoder по сравнению с существующими мультимодальными языковыми моделями, включая GPT-4V. Мы открываем исходный код нашего набора данных, кода и моделей для содействия исследованиям. Исходный код доступен по адресу: https://github.com/SHI-Labs/VCoder.

English

Humans possess the remarkable skill of Visual Perception, the ability to see and understand the seen, helping them make sense of the visual world and, in turn, reason. Multimodal Large Language Models (MLLM) have recently achieved impressive performance on vision-language tasks ranging from visual question-answering and image captioning to visual reasoning and image generation. However, when prompted to identify or count (perceive) the entities in a given image, existing MLLM systems fail. Working towards developing an accurate MLLM system for perception and reasoning, we propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs. We feed the VCoder with perception modalities such as segmentation or depth maps, improving the MLLM's perception abilities. Secondly, we leverage the images from COCO and outputs from off-the-shelf vision perception models to create our COCO Segmentation Text (COST) dataset for training and evaluating MLLMs on the object perception task. Thirdly, we introduce metrics to assess the object perception abilities in MLLMs on our COST dataset. Lastly, we provide extensive experimental evidence proving the VCoder's improved object-level perception skills over existing Multimodal LLMs, including GPT-4V. We open-source our dataset, code, and models to promote research. We open-source our code at https://github.com/SHI-Labs/VCoder

VCoder: Универсальные визуальные кодировщики для мультимодальных больших языковых моделей

VCoder: Versatile Vision Encoders for Multimodal Large Language Models

Аннотация

Support