UniPixel: Vereinheitlichte Objektreferenzierung und Segmentierung für pixelgenaue visuelle Argumentation
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning
September 22, 2025
papers.authors: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
papers.abstract
Jüngste Fortschritte bei großen multimodalen Modellen (Large Multi-modal Models, LMMs) haben deren bemerkenswerten Erfolg als universelle multimodale Assistenten demonstriert, mit einem besonderen Fokus auf ganzheitlichem Bild- und Video-Sprachverständnis. Im Gegensatz dazu wurde weniger Aufmerksamkeit auf die Skalierung fein abgestimmter pixelgenauer Verständnisfähigkeiten gelegt, bei denen die Modelle eine pixelgenaue Ausrichtung zwischen visuellen Signalen und Sprachsemantik erreichen sollen. Einige frühere Studien haben LMMs auf verwandte Aufgaben wie regionenbezogene Bildbeschreibung und referenzielle Ausdruckssegmentierung angewendet. Diese Modelle sind jedoch darauf beschränkt, entweder referenzielle oder Segmentierungsaufgaben unabhängig voneinander auszuführen, und es gelingt ihnen nicht, diese fein abgestimmten Wahrnehmungsfähigkeiten in die visuelle Argumentation zu integrieren. Um diese Lücke zu schließen, schlagen wir UniPixel vor, ein großes multimodales Modell, das in der Lage ist, visuelle Eingabeaufforderungen flexibel zu verstehen und maskenbasierte Antworten zu generieren. Unser Modell zeichnet sich dadurch aus, dass es pixelgenaue Wahrnehmung nahtlos mit allgemeinen visuellen Verständnisfähigkeiten integriert. Insbesondere verarbeitet UniPixel visuelle Aufforderungen und generiert bei Bedarf relevante Masken, führt anschließend eine Argumentation durch, die auf diesen Zwischenzeigern während der Inferenz basiert, und ermöglicht so eine fein abgestimmte pixelgenaue Argumentation. Die Wirksamkeit unseres Ansatzes wurde auf 10 Benchmarks über eine Vielzahl von Aufgaben hinweg überprüft, darunter pixelgenaue Referenzierung/Segmentierung und objektzentriertes Verständnis in Bildern/Videos. Eine neuartige PixelQA-Aufgabe, die gleichzeitig Referenzierung, Segmentierung und Fragebeantwortung erfordert, wurde ebenfalls entwickelt, um die Flexibilität unserer Methode zu überprüfen.
English
Recent advances in Large Multi-modal Models (LMMs) have demonstrated their
remarkable success as general-purpose multi-modal assistants, with particular
focuses on holistic image- and video-language understanding. Conversely, less
attention has been given to scaling fine-grained pixel-level understanding
capabilities, where the models are expected to realize pixel-level alignment
between visual signals and language semantics. Some previous studies have
applied LMMs to related tasks such as region-level captioning and referring
expression segmentation. However, these models are limited to performing either
referring or segmentation tasks independently and fail to integrate these
fine-grained perception capabilities into visual reasoning. To bridge this gap,
we propose UniPixel, a large multi-modal model capable of flexibly
comprehending visual prompt inputs and generating mask-grounded responses. Our
model distinguishes itself by seamlessly integrating pixel-level perception
with general visual understanding capabilities. Specifically, UniPixel
processes visual prompts and generates relevant masks on demand, and performs
subsequent reasoning conditioning on these intermediate pointers during
inference, thereby enabling fine-grained pixel-level reasoning. The
effectiveness of our approach has been verified on 10 benchmarks across a
diverse set of tasks, including pixel-level referring/segmentation and
object-centric understanding in images/videos. A novel PixelQA task that
jointly requires referring, segmentation, and question answering is also
designed to verify the flexibility of our method.