PixelRefer: Uma Estrutura Unificada para Referência Espacial-Temporal de Objetos com Granularidade Arbitrária
PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
October 27, 2025
Autores: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
cs.AI
Resumo
Os modelos de linguagem multimodal (MLLMs) demonstraram fortes capacidades de propósito geral na compreensão visual de mundo aberto. No entanto, a maioria dos MLLMs existentes concentra-se principalmente na compreensão holística a nível de cena, frequentemente negligenciando a necessidade de raciocínio fino e centrado em objetos. Neste artigo, apresentamos o PixelRefer, uma estrutura unificada de MLLM a nível de região que permite uma compreensão avançada e refinada sobre regiões especificadas pelo utilizador, tanto em imagens como em vídeos. Motivados pela observação de que a atenção dos LLMs se concentra predominantemente em tokens a nível de objeto, propomos um Tokenizador de Objetos Adaptativo à Escala (SAOT) para gerar representações de objetos compactas e semanticamente ricas a partir de regiões de forma livre. A nossa análise revela que os tokens visuais globais contribuem principalmente nas primeiras camadas do LLM, inspirando o design do PixelRefer-Lite, uma variante eficiente que emprega um módulo de Infusão Centrada em Objetos para pré-fundir o contexto global em tokens de objetos. Isto resulta numa Estrutura Apenas de Objetos leve que reduz substancialmente o custo computacional, mantendo alta fidelidade semântica. Para facilitar a afinação por instruções de granularidade fina, reunimos o PixelRefer-2.2M, um conjunto de dados de instruções centrado em objetos de alta qualidade. Extensas experiências numa variedade de benchmarks validam que o PixelRefer alcança um desempenho líder com menos amostras de treino, enquanto o PixelRefer-Lite oferece precisão competitiva com ganhos notáveis em eficiência.
English
Multimodal large language models (MLLMs) have demonstrated strong
general-purpose capabilities in open-world visual comprehension. However, most
existing MLLMs primarily focus on holistic, scene-level understanding, often
overlooking the need for fine-grained, object-centric reasoning. In this paper,
we present PixelRefer, a unified region-level MLLM framework that enables
advanced fine-grained understanding over user-specified regions across both
images and videos. Motivated by the observation that LLM attention
predominantly focuses on object-level tokens, we propose a Scale-Adaptive
Object Tokenizer (SAOT) to generate compact and semantically rich object
representations from free-form regions. Our analysis reveals that global visual
tokens contribute mainly in early LLM layers, inspiring the design of
PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion
module to pre-fuse global context into object tokens. This yields a lightweight
Object-Only Framework that substantially reduces computational cost while
maintaining high semantic fidelity. To facilitate fine-grained instruction
tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction
dataset. Extensive experiments across a range of benchmarks validate that
PixelRefer achieves leading performance with fewer training samples, while
PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.