PixelRefer: Uma Estrutura Unificada para Referência Espacial-Temporal de Objetos com Granularidade Arbitrária

Resumo

Os modelos de linguagem multimodal (MLLMs) demonstraram fortes capacidades de propósito geral na compreensão visual de mundo aberto. No entanto, a maioria dos MLLMs existentes concentra-se principalmente na compreensão holística a nível de cena, frequentemente negligenciando a necessidade de raciocínio fino e centrado em objetos. Neste artigo, apresentamos o PixelRefer, uma estrutura unificada de MLLM a nível de região que permite uma compreensão avançada e refinada sobre regiões especificadas pelo utilizador, tanto em imagens como em vídeos. Motivados pela observação de que a atenção dos LLMs se concentra predominantemente em tokens a nível de objeto, propomos um Tokenizador de Objetos Adaptativo à Escala (SAOT) para gerar representações de objetos compactas e semanticamente ricas a partir de regiões de forma livre. A nossa análise revela que os tokens visuais globais contribuem principalmente nas primeiras camadas do LLM, inspirando o design do PixelRefer-Lite, uma variante eficiente que emprega um módulo de Infusão Centrada em Objetos para pré-fundir o contexto global em tokens de objetos. Isto resulta numa Estrutura Apenas de Objetos leve que reduz substancialmente o custo computacional, mantendo alta fidelidade semântica. Para facilitar a afinação por instruções de granularidade fina, reunimos o PixelRefer-2.2M, um conjunto de dados de instruções centrado em objetos de alta qualidade. Extensas experiências numa variedade de benchmarks validam que o PixelRefer alcança um desempenho líder com menos amostras de treino, enquanto o PixelRefer-Lite oferece precisão competitiva com ganhos notáveis em eficiência.

English

Multimodal large language models (MLLMs) have demonstrated strong general-purpose capabilities in open-world visual comprehension. However, most existing MLLMs primarily focus on holistic, scene-level understanding, often overlooking the need for fine-grained, object-centric reasoning. In this paper, we present PixelRefer, a unified region-level MLLM framework that enables advanced fine-grained understanding over user-specified regions across both images and videos. Motivated by the observation that LLM attention predominantly focuses on object-level tokens, we propose a Scale-Adaptive Object Tokenizer (SAOT) to generate compact and semantically rich object representations from free-form regions. Our analysis reveals that global visual tokens contribute mainly in early LLM layers, inspiring the design of PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion module to pre-fuse global context into object tokens. This yields a lightweight Object-Only Framework that substantially reduces computational cost while maintaining high semantic fidelity. To facilitate fine-grained instruction tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction dataset. Extensive experiments across a range of benchmarks validate that PixelRefer achieves leading performance with fewer training samples, while PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.

PixelRefer: Uma Estrutura Unificada para Referência Espacial-Temporal de Objetos com Granularidade Arbitrária

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

Resumo

Support