UniPixel: 픽셀 수준 시각적 추론을 위한 통합 객체 참조 및 분할
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning
September 22, 2025
저자: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
초록
최근 대규모 멀티모달 모델(LMMs)의 발전은 일반적인 목적의 멀티모달 어시스턴트로서의 놀라운 성공을 보여주었으며, 특히 이미지와 비디오-언어 이해에 대한 종합적인 접근에 초점을 맞추고 있습니다. 반면, 시각 신호와 언어 의미 간의 픽셀 수준 정렬을 실현해야 하는 세밀한 픽셀 수준 이해 능력의 확장에는 상대적으로 적은 관심이 주어졌습니다. 일부 선행 연구에서는 LMMs를 영역 수준 캡셔닝 및 참조 표현 분할과 같은 관련 작업에 적용했습니다. 그러나 이러한 모델들은 참조 또는 분할 작업을 독립적으로 수행하는 데 제한되어 있으며, 이러한 세밀한 인식 능력을 시각적 추론에 통합하지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 시각적 프롬프트 입력을 유연하게 이해하고 마스크 기반 응답을 생성할 수 있는 대규모 멀티모달 모델인 UniPixel을 제안합니다. 우리의 모델은 픽셀 수준 인식과 일반적인 시각 이해 능력을 원활하게 통합함으로써 차별화됩니다. 구체적으로, UniPixel은 시각적 프롬프트를 처리하고 요청에 따라 관련 마스크를 생성하며, 추론 과정에서 이러한 중간 포인터를 조건으로 하여 후속 추론을 수행함으로써 세밀한 픽셀 수준 추론을 가능하게 합니다. 우리의 접근 방식의 효과는 픽셀 수준 참조/분할 및 이미지/비디오에서의 객체 중심 이해를 포함한 다양한 작업에 걸친 10개의 벤치마크에서 검증되었습니다. 또한 참조, 분할 및 질문 응답을 동시에 요구하는 새로운 PixelQA 작업을 설계하여 우리 방법의 유연성을 검증했습니다.
English
Recent advances in Large Multi-modal Models (LMMs) have demonstrated their
remarkable success as general-purpose multi-modal assistants, with particular
focuses on holistic image- and video-language understanding. Conversely, less
attention has been given to scaling fine-grained pixel-level understanding
capabilities, where the models are expected to realize pixel-level alignment
between visual signals and language semantics. Some previous studies have
applied LMMs to related tasks such as region-level captioning and referring
expression segmentation. However, these models are limited to performing either
referring or segmentation tasks independently and fail to integrate these
fine-grained perception capabilities into visual reasoning. To bridge this gap,
we propose UniPixel, a large multi-modal model capable of flexibly
comprehending visual prompt inputs and generating mask-grounded responses. Our
model distinguishes itself by seamlessly integrating pixel-level perception
with general visual understanding capabilities. Specifically, UniPixel
processes visual prompts and generates relevant masks on demand, and performs
subsequent reasoning conditioning on these intermediate pointers during
inference, thereby enabling fine-grained pixel-level reasoning. The
effectiveness of our approach has been verified on 10 benchmarks across a
diverse set of tasks, including pixel-level referring/segmentation and
object-centric understanding in images/videos. A novel PixelQA task that
jointly requires referring, segmentation, and question answering is also
designed to verify the flexibility of our method.