PixelRefer: 임의의 세분화 수준에서 시공간 객체 참조를 위한 통합 프레임워크
PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
October 27, 2025
저자: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)은 개방형 환경의 시각적 이해에서 강력한 범용 능력을 입증해 왔습니다. 그러나 기존 MLLM 대부분은 전체적 장면 수준 이해에 주력하며, 종종 세밀한 객체 중심 추론 필요성을 간과해왔습니다. 본 논문에서는 이미지와 비디오 모두에서 사용자 지정 영역에 대한 고급 세밀 이해를 가능하게 하는 통합 영역 수준 MLLM 프레임워크인 PixelRefer을 제시합니다. LLM 어텐션이 주로 객체 수준 토큰에 집중한다는 관찰에서 착안하여, 우리는 자유 형태 영역에서 간결하고 의미론적으로 풍부한 객체 표현을 생성하는 Scale-Adaptive Object Tokenizer(SAOT)를 제안합니다. 우리의 분석은 글로벌 시각 토큰이 주로 초기 LLM 계층에서 기여함을 보여주며, 이는 글로벌 컨텍스트를 객체 토큰에 사전 융합하는 Object-Centric Infusion 모듈을 사용하는 효율적 변형인 PixelRefer-Lite의 설계에 영감을 주었습니다. 이를 통해 계산 비용을 상당히 절감하면서도 높은 의미론적 정확도를 유지하는 경량화된 Object-Only Framework를 구현합니다. 세밀한 지시 튜닝을 위해 고품질 객체 중심 지시 데이터셋인 PixelRefer-2.2M을 구축했습니다. 다양한 벤치마크에 걸친 광범위한 실험을 통해 PixelRefer이 더 적은 훈련 샘플로 선도적인 성능을 달성하는 동시에 PixelRefer-Lite이 효율성에서 현저한 이점을 가지며 경쟁력 있는 정확도를 제공함을 검증했습니다.
English
Multimodal large language models (MLLMs) have demonstrated strong
general-purpose capabilities in open-world visual comprehension. However, most
existing MLLMs primarily focus on holistic, scene-level understanding, often
overlooking the need for fine-grained, object-centric reasoning. In this paper,
we present PixelRefer, a unified region-level MLLM framework that enables
advanced fine-grained understanding over user-specified regions across both
images and videos. Motivated by the observation that LLM attention
predominantly focuses on object-level tokens, we propose a Scale-Adaptive
Object Tokenizer (SAOT) to generate compact and semantically rich object
representations from free-form regions. Our analysis reveals that global visual
tokens contribute mainly in early LLM layers, inspiring the design of
PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion
module to pre-fuse global context into object tokens. This yields a lightweight
Object-Only Framework that substantially reduces computational cost while
maintaining high semantic fidelity. To facilitate fine-grained instruction
tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction
dataset. Extensive experiments across a range of benchmarks validate that
PixelRefer achieves leading performance with fewer training samples, while
PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.