UniPixel: Riferimento e Segmentazione Unificata di Oggetti per il Ragionamento Visivo a Livello di Pixel
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning
September 22, 2025
Autori: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Abstract
I recenti progressi nei Large Multi-modal Models (LMM) hanno dimostrato il loro notevole successo come assistenti multi-modali generici, con un particolare focus sulla comprensione olistica di immagini, video e linguaggio. Al contrario, è stata prestata meno attenzione al potenziamento delle capacità di comprensione a livello di pixel, dove i modelli sono chiamati a realizzare un allineamento a livello di pixel tra i segnali visivi e la semantica del linguaggio. Alcuni studi precedenti hanno applicato gli LMM a compiti correlati come la descrizione a livello di regione e la segmentazione di espressioni referenziali. Tuttavia, questi modelli sono limitati a eseguire compiti di riferimento o segmentazione in modo indipendente e non riescono a integrare queste capacità di percezione fine-granularità nel ragionamento visivo. Per colmare questa lacuna, proponiamo UniPixel, un modello multi-modale di grandi dimensioni in grado di comprendere flessibilmente gli input di prompt visivi e generare risposte basate su maschere. Il nostro modello si distingue per l'integrazione senza soluzione di continuità della percezione a livello di pixel con le capacità di comprensione visiva generale. Nello specifico, UniPixel elabora i prompt visivi e genera maschere pertinenti su richiesta, eseguendo successivamente un ragionamento condizionato su questi indicatori intermedi durante l'inferenza, consentendo così un ragionamento fine-granularità a livello di pixel. L'efficacia del nostro approccio è stata verificata su 10 benchmark che coprono un'ampia gamma di compiti, tra cui riferimento/segmentazione a livello di pixel e comprensione centrata sugli oggetti in immagini/video. È stato inoltre progettato un nuovo compito PixelQA che richiede congiuntamente riferimento, segmentazione e risposta a domande per verificare la flessibilità del nostro metodo.
English
Recent advances in Large Multi-modal Models (LMMs) have demonstrated their
remarkable success as general-purpose multi-modal assistants, with particular
focuses on holistic image- and video-language understanding. Conversely, less
attention has been given to scaling fine-grained pixel-level understanding
capabilities, where the models are expected to realize pixel-level alignment
between visual signals and language semantics. Some previous studies have
applied LMMs to related tasks such as region-level captioning and referring
expression segmentation. However, these models are limited to performing either
referring or segmentation tasks independently and fail to integrate these
fine-grained perception capabilities into visual reasoning. To bridge this gap,
we propose UniPixel, a large multi-modal model capable of flexibly
comprehending visual prompt inputs and generating mask-grounded responses. Our
model distinguishes itself by seamlessly integrating pixel-level perception
with general visual understanding capabilities. Specifically, UniPixel
processes visual prompts and generates relevant masks on demand, and performs
subsequent reasoning conditioning on these intermediate pointers during
inference, thereby enabling fine-grained pixel-level reasoning. The
effectiveness of our approach has been verified on 10 benchmarks across a
diverse set of tasks, including pixel-level referring/segmentation and
object-centric understanding in images/videos. A novel PixelQA task that
jointly requires referring, segmentation, and question answering is also
designed to verify the flexibility of our method.