PixelRefer:任意の粒度による時空間オブジェクト参照の統合フレームワーク
PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
October 27, 2025
著者: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は、オープンワールドにおける視覚的理解において強力な汎用能力を実証している。しかし、既存のMLLMの多くは、画像全体やシーン単位の理解に主眼を置き、細粒度で対象物中心の推論への要請を見落としがちである。本論文では、画像と動画の両方にわたり、ユーザー指定領域に対する高度な細粒度理解を可能にする、統一された領域レベルMLLMフレームワーク「PixelRefer」を提案する。大規模言語モデルの注意機構が主に対象物レベルのトークンに集中するという観察に基づき、我々は自由形式の領域からコンパクトで意味的に豊かな対象物表現を生成するスケール適応型対象物トークナイザ(SAOT)を提案する。解析の結果、大域的な視覚トークンは主に大規模言語モデルの初期層で寄与することが明らかとなり、これに着想を得て、大域的文脈を対象物トークンに事前融合する対象物中心注入モジュールを採用した効率的な変種「PixelRefer-Lite」を設計した。これにより、計算コストを大幅に削減しつつ高い意味的忠実性を維持する軽量な対象物専用フレームワークが実現する。細粒度の指示チューニングを促進するため、高品質な対象物中心の指示データセット「PixelRefer-2.2M」を構築した。一連のベンチマークによる広範な実験により、PixelReferがより少ない訓練サンプルで最先端の性能を達成すること、またPixelRefer-Liteが顕著な効率性の向上を図りつつ競争力のある精度を提供することを検証した。
English
Multimodal large language models (MLLMs) have demonstrated strong
general-purpose capabilities in open-world visual comprehension. However, most
existing MLLMs primarily focus on holistic, scene-level understanding, often
overlooking the need for fine-grained, object-centric reasoning. In this paper,
we present PixelRefer, a unified region-level MLLM framework that enables
advanced fine-grained understanding over user-specified regions across both
images and videos. Motivated by the observation that LLM attention
predominantly focuses on object-level tokens, we propose a Scale-Adaptive
Object Tokenizer (SAOT) to generate compact and semantically rich object
representations from free-form regions. Our analysis reveals that global visual
tokens contribute mainly in early LLM layers, inspiring the design of
PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion
module to pre-fuse global context into object tokens. This yields a lightweight
Object-Only Framework that substantially reduces computational cost while
maintaining high semantic fidelity. To facilitate fine-grained instruction
tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction
dataset. Extensive experiments across a range of benchmarks validate that
PixelRefer achieves leading performance with fewer training samples, while
PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.