OMG-LLaVA: Связующее звено между рассуждениями и пониманием на уровне изображения, объекта и пикселяOMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and
Understanding
Современные универсальные методы сегментации демонстрируют высокие возможности в понимании изображений и видео на уровне пикселей. Однако они лишены способности к рассуждениям и не могут управляться с помощью текстовых инструкций. В отличие от этого, крупные мультимодальные модели видео-языка обладают мощными возможностями ведения разговоров на основе видео и рассуждениями, но лишены понимания на уровне пикселей и испытывают трудности при приеме визуальных подсказок для гибкого взаимодействия с пользователем. В данной статье предлагается OMG-LLaVA, новая и элегантная структура, объединяющая мощное понимание изображений на уровне пикселей с рассуждениями. Она способна принимать различные визуальные и текстовые подсказки для гибкого взаимодействия с пользователем. Конкретно, мы используем универсальный метод сегментации в качестве визуального кодера, интегрируя информацию об изображении, предпочтения восприятия и визуальные подсказки в визуальные токены, предоставляемые LLM. LLM отвечает за понимание текстовых инструкций пользователя и предоставление текстовых ответов и результатов сегментации на уровне пикселей на основе визуальной информации. Мы предлагаем встраивание предпочтений восприятия для лучшей интеграции предпочтений восприятия с изображениями. OMG-LLaVA достигает рассуждений и понимания на уровне изображения, объекта и пикселя в рамках одной модели, соответствуя или превосходя производительность специализированных методов на нескольких показателях. В отличие от использования LLM для соединения каждого специалиста, наша работа нацелена на обучение от начала до конца на одном кодировщике, одном декодере и одном LLM. Код и модель были опубликованы для дальнейших исследований.