PixelRefer: un framework unificato per il riferimento a oggetti spazio-temporali con granularità arbitraria
PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
October 27, 2025
Autori: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato forti capacità generali nella comprensione visiva del mondo aperto. Tuttavia, la maggior parte degli MLLM esistenti si concentra principalmente su una comprensione olistica a livello di scena, trascurando spesso l'esigenza di un ragionamento fine e centrato sugli oggetti. In questo articolo, presentiamo PixelRefer, un framework MLLM unificato a livello di regione che abilita una comprensione fine e avanzata su regioni specificate dall'utente sia in immagini che in video. Motivati dall'osservazione che l'attenzione dei LLM si concentra prevalentemente su token a livello di oggetto, proponiamo un Tokenizzatore di Oggetti Adattivo alla Scala (SAOT) per generare rappresentazioni di oggetti compatte e semanticamente ricche a partire da regioni a forma libera. La nostra analisi rivela che i token visivi globali contribuiscono principalmente negli strati iniziali del LLM, ispirando la progettazione di PixelRefer-Lite, una variante efficiente che impiega un modulo di Infusione Centrato sugli Oggetti per pre-fondere il contesto globale nei token degli oggetti. Ciò produce un Framework Solo Oggetti leggero che riduce sostanzialmente il costo computazionale mantenendo un'alta fedeltà semantica. Per facilitare il fine-tuning instruito a grana fine, abbiamo curato PixelRefer-2.2M, un dataset di istruzioni di alta qualità centrato sugli oggetti. Esperimenti estesi su una serie di benchmark convalidano che PixelRefer raggiunge prestazioni leader con un minor numero di campioni di addestramento, mentre PixelRefer-Lite offre un'accuratezza competitiva con notevoli vantaggi in termini di efficienza.
English
Multimodal large language models (MLLMs) have demonstrated strong
general-purpose capabilities in open-world visual comprehension. However, most
existing MLLMs primarily focus on holistic, scene-level understanding, often
overlooking the need for fine-grained, object-centric reasoning. In this paper,
we present PixelRefer, a unified region-level MLLM framework that enables
advanced fine-grained understanding over user-specified regions across both
images and videos. Motivated by the observation that LLM attention
predominantly focuses on object-level tokens, we propose a Scale-Adaptive
Object Tokenizer (SAOT) to generate compact and semantically rich object
representations from free-form regions. Our analysis reveals that global visual
tokens contribute mainly in early LLM layers, inspiring the design of
PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion
module to pre-fuse global context into object tokens. This yields a lightweight
Object-Only Framework that substantially reduces computational cost while
maintaining high semantic fidelity. To facilitate fine-grained instruction
tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction
dataset. Extensive experiments across a range of benchmarks validate that
PixelRefer achieves leading performance with fewer training samples, while
PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.