UniPixel: Унифицированное выделение и сегментация объектов для визуального анализа на уровне пикселей
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning
September 22, 2025
Авторы: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Аннотация
Последние достижения в области крупных мультимодальных моделей (LMM) продемонстрировали их впечатляющий успех в качестве универсальных мультимодальных ассистентов, с особым акцентом на целостное понимание изображений, видео и текста. В то же время меньше внимания уделялось масштабированию возможностей для детального понимания на уровне пикселей, где от моделей ожидается достижение пиксельной согласованности между визуальными сигналами и языковой семантикой. Некоторые предыдущие исследования применяли LMM к связанным задачам, таким как создание описаний на уровне регионов и сегментация по референсным выражениям. Однако эти модели ограничены выполнением либо задач референции, либо сегментации по отдельности и не способны интегрировать эти детальные возможности восприятия в визуальное рассуждение. Чтобы устранить этот пробел, мы предлагаем UniPixel — крупную мультимодальную модель, способную гибко воспринимать визуальные подсказки и генерировать ответы, основанные на масках. Наша модель выделяется благодаря бесшовной интеграции пиксельного восприятия с общими возможностями визуального понимания. В частности, UniPixel обрабатывает визуальные подсказки и генерирует соответствующие маски по запросу, а затем выполняет рассуждения, основываясь на этих промежуточных указателях в процессе вывода, что позволяет осуществлять детальное рассуждение на уровне пикселей. Эффективность нашего подхода подтверждена на 10 бенчмарках, охватывающих разнообразные задачи, включая референцию/сегментацию на уровне пикселей и объектно-ориентированное понимание в изображениях/видео. Также разработана новая задача PixelQA, которая требует совместного выполнения референции, сегментации и ответов на вопросы, чтобы проверить гибкость нашего метода.
English
Recent advances in Large Multi-modal Models (LMMs) have demonstrated their
remarkable success as general-purpose multi-modal assistants, with particular
focuses on holistic image- and video-language understanding. Conversely, less
attention has been given to scaling fine-grained pixel-level understanding
capabilities, where the models are expected to realize pixel-level alignment
between visual signals and language semantics. Some previous studies have
applied LMMs to related tasks such as region-level captioning and referring
expression segmentation. However, these models are limited to performing either
referring or segmentation tasks independently and fail to integrate these
fine-grained perception capabilities into visual reasoning. To bridge this gap,
we propose UniPixel, a large multi-modal model capable of flexibly
comprehending visual prompt inputs and generating mask-grounded responses. Our
model distinguishes itself by seamlessly integrating pixel-level perception
with general visual understanding capabilities. Specifically, UniPixel
processes visual prompts and generates relevant masks on demand, and performs
subsequent reasoning conditioning on these intermediate pointers during
inference, thereby enabling fine-grained pixel-level reasoning. The
effectiveness of our approach has been verified on 10 benchmarks across a
diverse set of tasks, including pixel-level referring/segmentation and
object-centric understanding in images/videos. A novel PixelQA task that
jointly requires referring, segmentation, and question answering is also
designed to verify the flexibility of our method.