UniPixel: Referência e Segmentação Unificada de Objetos para Raciocínio Visual em Nível de Pixel
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning
September 22, 2025
Autores: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Resumo
Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) demonstraram seu notável sucesso como assistentes multimodais de propósito geral, com foco particular na compreensão holística de imagens e vídeos em relação à linguagem. Por outro lado, menos atenção tem sido dada à ampliação das capacidades de compreensão em nível de pixel, onde espera-se que os modelos realizem o alinhamento em nível de pixel entre sinais visuais e semântica linguística. Alguns estudos anteriores aplicaram LMMs a tarefas relacionadas, como legendagem em nível de região e segmentação de expressões referenciais. No entanto, esses modelos são limitados a realizar tarefas de referência ou segmentação de forma independente e não conseguem integrar essas capacidades de percepção refinada ao raciocínio visual. Para preencher essa lacuna, propomos o UniPixel, um modelo multimodal de grande escala capaz de compreender flexivelmente entradas visuais e gerar respostas fundamentadas em máscaras. Nosso modelo se destaca por integrar de forma contínua a percepção em nível de pixel com capacidades gerais de compreensão visual. Especificamente, o UniPixel processa prompts visuais e gera máscaras relevantes sob demanda, realizando raciocínio subsequente condicionado a esses indicadores intermediários durante a inferência, permitindo assim o raciocínio refinado em nível de pixel. A eficácia da nossa abordagem foi verificada em 10 benchmarks abrangendo uma variedade de tarefas, incluindo referência/segmentação em nível de pixel e compreensão centrada em objetos em imagens/vídeos. Uma nova tarefa chamada PixelQA, que exige conjuntamente referência, segmentação e resposta a perguntas, também foi projetada para verificar a flexibilidade do nosso método.
English
Recent advances in Large Multi-modal Models (LMMs) have demonstrated their
remarkable success as general-purpose multi-modal assistants, with particular
focuses on holistic image- and video-language understanding. Conversely, less
attention has been given to scaling fine-grained pixel-level understanding
capabilities, where the models are expected to realize pixel-level alignment
between visual signals and language semantics. Some previous studies have
applied LMMs to related tasks such as region-level captioning and referring
expression segmentation. However, these models are limited to performing either
referring or segmentation tasks independently and fail to integrate these
fine-grained perception capabilities into visual reasoning. To bridge this gap,
we propose UniPixel, a large multi-modal model capable of flexibly
comprehending visual prompt inputs and generating mask-grounded responses. Our
model distinguishes itself by seamlessly integrating pixel-level perception
with general visual understanding capabilities. Specifically, UniPixel
processes visual prompts and generates relevant masks on demand, and performs
subsequent reasoning conditioning on these intermediate pointers during
inference, thereby enabling fine-grained pixel-level reasoning. The
effectiveness of our approach has been verified on 10 benchmarks across a
diverse set of tasks, including pixel-level referring/segmentation and
object-centric understanding in images/videos. A novel PixelQA task that
jointly requires referring, segmentation, and question answering is also
designed to verify the flexibility of our method.