UniPixel: Unificación de Referenciación de Objetos y Segmentación para Razonamiento Visual a Nivel de Píxel
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning
September 22, 2025
Autores: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Resumen
Los recientes avances en los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) han demostrado su notable éxito como asistentes multimodales de propósito general, con un enfoque particular en la comprensión holística de imágenes, videos y lenguaje. Por el contrario, se ha prestado menos atención a la escalabilidad de las capacidades de comprensión a nivel de píxeles, donde se espera que los modelos logren una alineación a nivel de píxeles entre las señales visuales y la semántica del lenguaje. Algunos estudios previos han aplicado LMMs a tareas relacionadas, como la generación de descripciones a nivel de región y la segmentación de expresiones referenciales. Sin embargo, estos modelos se limitan a realizar tareas de referencia o segmentación de manera independiente y no logran integrar estas capacidades de percepción detallada en el razonamiento visual. Para cerrar esta brecha, proponemos UniPixel, un modelo multimodal de gran escala capaz de comprender de manera flexible entradas de indicaciones visuales y generar respuestas basadas en máscaras. Nuestro modelo se distingue por integrar de manera fluida la percepción a nivel de píxeles con capacidades generales de comprensión visual. Específicamente, UniPixel procesa indicaciones visuales y genera máscaras relevantes bajo demanda, y realiza un razonamiento posterior condicionado a estos indicadores intermedios durante la inferencia, lo que permite un razonamiento detallado a nivel de píxeles. La efectividad de nuestro enfoque ha sido verificada en 10 benchmarks que abarcan un conjunto diverso de tareas, incluyendo referencia/segmentación a nivel de píxeles y comprensión centrada en objetos en imágenes/videos. También se ha diseñado una nueva tarea llamada PixelQA, que requiere conjuntamente referencia, segmentación y respuesta a preguntas, para verificar la flexibilidad de nuestro método.
English
Recent advances in Large Multi-modal Models (LMMs) have demonstrated their
remarkable success as general-purpose multi-modal assistants, with particular
focuses on holistic image- and video-language understanding. Conversely, less
attention has been given to scaling fine-grained pixel-level understanding
capabilities, where the models are expected to realize pixel-level alignment
between visual signals and language semantics. Some previous studies have
applied LMMs to related tasks such as region-level captioning and referring
expression segmentation. However, these models are limited to performing either
referring or segmentation tasks independently and fail to integrate these
fine-grained perception capabilities into visual reasoning. To bridge this gap,
we propose UniPixel, a large multi-modal model capable of flexibly
comprehending visual prompt inputs and generating mask-grounded responses. Our
model distinguishes itself by seamlessly integrating pixel-level perception
with general visual understanding capabilities. Specifically, UniPixel
processes visual prompts and generates relevant masks on demand, and performs
subsequent reasoning conditioning on these intermediate pointers during
inference, thereby enabling fine-grained pixel-level reasoning. The
effectiveness of our approach has been verified on 10 benchmarks across a
diverse set of tasks, including pixel-level referring/segmentation and
object-centric understanding in images/videos. A novel PixelQA task that
jointly requires referring, segmentation, and question answering is also
designed to verify the flexibility of our method.