PixelRefer : Un cadre unifié pour la référence d'objets spatio-temporelle avec granularité arbitraire
PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
October 27, 2025
papers.authors: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLM) ont démontré d'impressionnantes capacités polyvalentes dans la compréhension visuelle de scènes ouvertes. Cependant, la plupart des MLLM existants se concentrent principalement sur une compréhension holistique au niveau de la scène, négligeant souvent le besoin d'un raisonnement centré sur les objets à granularité fine. Dans cet article, nous présentons PixelRefer, un cadre unifié de MLLM au niveau régional qui permet une compréhension fine avancée sur des zones spécifiées par l'utilisateur, tant dans les images que dans les vidéos. Motivés par l'observation que l'attention des LLM se concentre principalement sur les tokens au niveau objet, nous proposons un Tokeniseur d'Objets Adaptatif à l'Échelle (SAOT) pour générer des représentations d'objets compactes et sémantiquement riches à partir de régions de forme libre. Notre analyse révèle que les tokens visuels globaux contribuent principalement dans les premières couches des LLM, ce qui inspire la conception de PixelRefer-Lite, une variante efficace qui utilise un module d'Infusion Centré sur les Objets pour pré-fusionner le contexte global dans les tokens objets. Cela produit un Cadre Objet-Only léger qui réduit substantiellement le coût computationnel tout en maintenant une haute fidélité sémantique. Pour faciliter le réglage instructionnel à granularité fine, nous avons constitué PixelRefer-2.2M, un jeu de données instructionnel de haute qualité centré sur les objets. Des expériences approfondies sur une série de benchmarks valident que PixelRefer atteint des performances leaders avec moins d'échantillons d'entraînement, tandis que PixelRefer-Lite offre une précision compétitive avec des gains notables en efficacité.
English
Multimodal large language models (MLLMs) have demonstrated strong
general-purpose capabilities in open-world visual comprehension. However, most
existing MLLMs primarily focus on holistic, scene-level understanding, often
overlooking the need for fine-grained, object-centric reasoning. In this paper,
we present PixelRefer, a unified region-level MLLM framework that enables
advanced fine-grained understanding over user-specified regions across both
images and videos. Motivated by the observation that LLM attention
predominantly focuses on object-level tokens, we propose a Scale-Adaptive
Object Tokenizer (SAOT) to generate compact and semantically rich object
representations from free-form regions. Our analysis reveals that global visual
tokens contribute mainly in early LLM layers, inspiring the design of
PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion
module to pre-fuse global context into object tokens. This yields a lightweight
Object-Only Framework that substantially reduces computational cost while
maintaining high semantic fidelity. To facilitate fine-grained instruction
tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction
dataset. Extensive experiments across a range of benchmarks validate that
PixelRefer achieves leading performance with fewer training samples, while
PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.