OMG-LLaVA: Связующее звено между рассуждениями и пониманием на уровне изображения, объекта и пикселя
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding
June 27, 2024
Авторы: Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan
cs.AI
Аннотация
Современные универсальные методы сегментации демонстрируют высокие возможности в понимании изображений и видео на уровне пикселей. Однако они лишены способности к рассуждениям и не могут управляться с помощью текстовых инструкций. В отличие от этого, крупные мультимодальные модели видео-языка обладают мощными возможностями ведения разговоров на основе видео и рассуждениями, но лишены понимания на уровне пикселей и испытывают трудности при приеме визуальных подсказок для гибкого взаимодействия с пользователем. В данной статье предлагается OMG-LLaVA, новая и элегантная структура, объединяющая мощное понимание изображений на уровне пикселей с рассуждениями. Она способна принимать различные визуальные и текстовые подсказки для гибкого взаимодействия с пользователем. Конкретно, мы используем универсальный метод сегментации в качестве визуального кодера, интегрируя информацию об изображении, предпочтения восприятия и визуальные подсказки в визуальные токены, предоставляемые LLM. LLM отвечает за понимание текстовых инструкций пользователя и предоставление текстовых ответов и результатов сегментации на уровне пикселей на основе визуальной информации. Мы предлагаем встраивание предпочтений восприятия для лучшей интеграции предпочтений восприятия с изображениями. OMG-LLaVA достигает рассуждений и понимания на уровне изображения, объекта и пикселя в рамках одной модели, соответствуя или превосходя производительность специализированных методов на нескольких показателях. В отличие от использования LLM для соединения каждого специалиста, наша работа нацелена на обучение от начала до конца на одном кодировщике, одном декодере и одном LLM. Код и модель были опубликованы для дальнейших исследований.
English
Current universal segmentation methods demonstrate strong capabilities in
pixel-level image and video understanding. However, they lack reasoning
abilities and cannot be controlled via text instructions. In contrast, large
vision-language multimodal models exhibit powerful vision-based conversation
and reasoning capabilities but lack pixel-level understanding and have
difficulty accepting visual prompts for flexible user interaction. This paper
proposes OMG-LLaVA, a new and elegant framework combining powerful pixel-level
vision understanding with reasoning abilities. It can accept various visual and
text prompts for flexible user interaction. Specifically, we use a universal
segmentation method as the visual encoder, integrating image information,
perception priors, and visual prompts into visual tokens provided to the LLM.
The LLM is responsible for understanding the user's text instructions and
providing text responses and pixel-level segmentation results based on the
visual information. We propose perception prior embedding to better integrate
perception priors with image features. OMG-LLaVA achieves image-level,
object-level, and pixel-level reasoning and understanding in a single model,
matching or surpassing the performance of specialized methods on multiple
benchmarks. Rather than using LLM to connect each specialist, our work aims at
end-to-end training on one encoder, one decoder, and one LLM. The code and
model have been released for further research.Summary
AI-Generated Summary