ChatPaper.aiChatPaper

UniPixel: Geïntegreerde Objectreferentie en Segmentatie voor Pixel-Niveau Visuele Redenering

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

September 22, 2025
Auteurs: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI

Samenvatting

Recente ontwikkelingen in Grote Multimodale Modellen (LMMs) hebben hun opmerkelijke succes aangetoond als algemene multimodale assistenten, met een bijzondere focus op holistisch beeld- en video-taalbegrip. Omgekeerd is er minder aandacht besteed aan het schalen van fijnmazige, pixel-niveau begripscapaciteiten, waarbij de modellen een pixel-niveau afstemming tussen visuele signalen en taalsemantiek moeten realiseren. Sommige eerdere studies hebben LMMs toegepast op gerelateerde taken zoals regionale bijschrijving en verwijzende expressiesegmentatie. Deze modellen zijn echter beperkt tot het onafhankelijk uitvoeren van verwijzende of segmentatietaken en slagen er niet in deze fijnmazige perceptiecapaciteiten te integreren in visuele redenering. Om deze kloof te overbruggen, stellen we UniPixel voor, een groot multimodaal model dat in staat is visuele promptinputs flexibel te begrijpen en masker-gebaseerde antwoorden te genereren. Ons model onderscheidt zich door het naadloos integreren van pixel-niveau perceptie met algemene visuele begripscapaciteiten. Specifiek verwerkt UniPixel visuele prompts en genereert relevante maskers op aanvraag, en voert vervolgens redeneringen uit die gebaseerd zijn op deze tussenliggende verwijzingen tijdens inferentie, waardoor fijnmazige pixel-niveau redenering mogelijk wordt. De effectiviteit van onze aanpak is geverifieerd op 10 benchmarks voor een diverse set van taken, waaronder pixel-niveau verwijzing/segmentatie en objectgericht begrip in afbeeldingen/video's. Een nieuwe PixelQA-taak die gezamenlijk verwijzing, segmentatie en vraagbeantwooring vereist, is ook ontworpen om de flexibiliteit van onze methode te verifiëren.
English
Recent advances in Large Multi-modal Models (LMMs) have demonstrated their remarkable success as general-purpose multi-modal assistants, with particular focuses on holistic image- and video-language understanding. Conversely, less attention has been given to scaling fine-grained pixel-level understanding capabilities, where the models are expected to realize pixel-level alignment between visual signals and language semantics. Some previous studies have applied LMMs to related tasks such as region-level captioning and referring expression segmentation. However, these models are limited to performing either referring or segmentation tasks independently and fail to integrate these fine-grained perception capabilities into visual reasoning. To bridge this gap, we propose UniPixel, a large multi-modal model capable of flexibly comprehending visual prompt inputs and generating mask-grounded responses. Our model distinguishes itself by seamlessly integrating pixel-level perception with general visual understanding capabilities. Specifically, UniPixel processes visual prompts and generates relevant masks on demand, and performs subsequent reasoning conditioning on these intermediate pointers during inference, thereby enabling fine-grained pixel-level reasoning. The effectiveness of our approach has been verified on 10 benchmarks across a diverse set of tasks, including pixel-level referring/segmentation and object-centric understanding in images/videos. A novel PixelQA task that jointly requires referring, segmentation, and question answering is also designed to verify the flexibility of our method.
PDF43September 23, 2025