PixelRefer : Un cadre unifié pour la référence d'objets spatio-temporelle avec granularité arbitraire

papers.abstract

Les modèles de langage multimodaux de grande taille (MLLM) ont démontré d'impressionnantes capacités polyvalentes dans la compréhension visuelle de scènes ouvertes. Cependant, la plupart des MLLM existants se concentrent principalement sur une compréhension holistique au niveau de la scène, négligeant souvent le besoin d'un raisonnement centré sur les objets à granularité fine. Dans cet article, nous présentons PixelRefer, un cadre unifié de MLLM au niveau régional qui permet une compréhension fine avancée sur des zones spécifiées par l'utilisateur, tant dans les images que dans les vidéos. Motivés par l'observation que l'attention des LLM se concentre principalement sur les tokens au niveau objet, nous proposons un Tokeniseur d'Objets Adaptatif à l'Échelle (SAOT) pour générer des représentations d'objets compactes et sémantiquement riches à partir de régions de forme libre. Notre analyse révèle que les tokens visuels globaux contribuent principalement dans les premières couches des LLM, ce qui inspire la conception de PixelRefer-Lite, une variante efficace qui utilise un module d'Infusion Centré sur les Objets pour pré-fusionner le contexte global dans les tokens objets. Cela produit un Cadre Objet-Only léger qui réduit substantiellement le coût computationnel tout en maintenant une haute fidélité sémantique. Pour faciliter le réglage instructionnel à granularité fine, nous avons constitué PixelRefer-2.2M, un jeu de données instructionnel de haute qualité centré sur les objets. Des expériences approfondies sur une série de benchmarks valident que PixelRefer atteint des performances leaders avec moins d'échantillons d'entraînement, tandis que PixelRefer-Lite offre une précision compétitive avec des gains notables en efficacité.

English

Multimodal large language models (MLLMs) have demonstrated strong general-purpose capabilities in open-world visual comprehension. However, most existing MLLMs primarily focus on holistic, scene-level understanding, often overlooking the need for fine-grained, object-centric reasoning. In this paper, we present PixelRefer, a unified region-level MLLM framework that enables advanced fine-grained understanding over user-specified regions across both images and videos. Motivated by the observation that LLM attention predominantly focuses on object-level tokens, we propose a Scale-Adaptive Object Tokenizer (SAOT) to generate compact and semantically rich object representations from free-form regions. Our analysis reveals that global visual tokens contribute mainly in early LLM layers, inspiring the design of PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion module to pre-fuse global context into object tokens. This yields a lightweight Object-Only Framework that substantially reduces computational cost while maintaining high semantic fidelity. To facilitate fine-grained instruction tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction dataset. Extensive experiments across a range of benchmarks validate that PixelRefer achieves leading performance with fewer training samples, while PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.

PixelRefer : Un cadre unifié pour la référence d'objets spatio-temporelle avec granularité arbitraire

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

papers.abstract

Support