UniPixel : Référencement et segmentation unifiés d'objets pour le raisonnement visuel au niveau des pixels
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning
September 22, 2025
papers.authors: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
papers.abstract
Les récents progrès des modèles multi-modaux de grande taille (LMMs) ont démontré leur succès remarquable en tant qu'assistants multi-modaux à usage général, avec un accent particulier sur la compréhension holistique des relations entre images/vidéos et langage. À l'inverse, moins d'attention a été accordée au développement des capacités de compréhension fine au niveau des pixels, où les modèles sont censés réaliser un alignement au niveau pixel entre les signaux visuels et la sémantique du langage. Certaines études antérieures ont appliqué les LMMs à des tâches connexes telles que la description au niveau des régions et la segmentation d'expressions référentielles. Cependant, ces modèles se limitent à effectuer soit des tâches de référence, soit de segmentation de manière indépendante, et ne parviennent pas à intégrer ces capacités de perception fine dans le raisonnement visuel. Pour combler cette lacune, nous proposons UniPixel, un modèle multi-modal de grande taille capable de comprendre de manière flexible les entrées visuelles et de générer des réponses ancrées dans des masques. Notre modèle se distingue par l'intégration fluide de la perception au niveau des pixels avec des capacités générales de compréhension visuelle. Plus précisément, UniPixel traite les entrées visuelles et génère des masques pertinents à la demande, puis effectue un raisonnement conditionné sur ces indicateurs intermédiaires lors de l'inférence, permettant ainsi un raisonnement fin au niveau des pixels. L'efficacité de notre approche a été vérifiée sur 10 benchmarks couvrant un ensemble diversifié de tâches, incluant la référence/segmentation au niveau des pixels et la compréhension centrée sur les objets dans les images/vidéos. Une nouvelle tâche PixelQA, qui nécessite conjointement la référence, la segmentation et la réponse à des questions, a également été conçue pour vérifier la flexibilité de notre méthode.
English
Recent advances in Large Multi-modal Models (LMMs) have demonstrated their
remarkable success as general-purpose multi-modal assistants, with particular
focuses on holistic image- and video-language understanding. Conversely, less
attention has been given to scaling fine-grained pixel-level understanding
capabilities, where the models are expected to realize pixel-level alignment
between visual signals and language semantics. Some previous studies have
applied LMMs to related tasks such as region-level captioning and referring
expression segmentation. However, these models are limited to performing either
referring or segmentation tasks independently and fail to integrate these
fine-grained perception capabilities into visual reasoning. To bridge this gap,
we propose UniPixel, a large multi-modal model capable of flexibly
comprehending visual prompt inputs and generating mask-grounded responses. Our
model distinguishes itself by seamlessly integrating pixel-level perception
with general visual understanding capabilities. Specifically, UniPixel
processes visual prompts and generates relevant masks on demand, and performs
subsequent reasoning conditioning on these intermediate pointers during
inference, thereby enabling fine-grained pixel-level reasoning. The
effectiveness of our approach has been verified on 10 benchmarks across a
diverse set of tasks, including pixel-level referring/segmentation and
object-centric understanding in images/videos. A novel PixelQA task that
jointly requires referring, segmentation, and question answering is also
designed to verify the flexibility of our method.