ChatPaper.aiChatPaper

PixelRefer: Uma Estrutura Unificada para Referência Espacial-Temporal de Objetos com Granularidade Arbitrária

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

October 27, 2025
Autores: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
cs.AI

Resumo

Os modelos de linguagem multimodal (MLLMs) demonstraram fortes capacidades de propósito geral na compreensão visual de mundo aberto. No entanto, a maioria dos MLLMs existentes concentra-se principalmente na compreensão holística a nível de cena, frequentemente negligenciando a necessidade de raciocínio fino e centrado em objetos. Neste artigo, apresentamos o PixelRefer, uma estrutura unificada de MLLM a nível de região que permite uma compreensão avançada e refinada sobre regiões especificadas pelo utilizador, tanto em imagens como em vídeos. Motivados pela observação de que a atenção dos LLMs se concentra predominantemente em tokens a nível de objeto, propomos um Tokenizador de Objetos Adaptativo à Escala (SAOT) para gerar representações de objetos compactas e semanticamente ricas a partir de regiões de forma livre. A nossa análise revela que os tokens visuais globais contribuem principalmente nas primeiras camadas do LLM, inspirando o design do PixelRefer-Lite, uma variante eficiente que emprega um módulo de Infusão Centrada em Objetos para pré-fundir o contexto global em tokens de objetos. Isto resulta numa Estrutura Apenas de Objetos leve que reduz substancialmente o custo computacional, mantendo alta fidelidade semântica. Para facilitar a afinação por instruções de granularidade fina, reunimos o PixelRefer-2.2M, um conjunto de dados de instruções centrado em objetos de alta qualidade. Extensas experiências numa variedade de benchmarks validam que o PixelRefer alcança um desempenho líder com menos amostras de treino, enquanto o PixelRefer-Lite oferece precisão competitiva com ganhos notáveis em eficiência.
English
Multimodal large language models (MLLMs) have demonstrated strong general-purpose capabilities in open-world visual comprehension. However, most existing MLLMs primarily focus on holistic, scene-level understanding, often overlooking the need for fine-grained, object-centric reasoning. In this paper, we present PixelRefer, a unified region-level MLLM framework that enables advanced fine-grained understanding over user-specified regions across both images and videos. Motivated by the observation that LLM attention predominantly focuses on object-level tokens, we propose a Scale-Adaptive Object Tokenizer (SAOT) to generate compact and semantically rich object representations from free-form regions. Our analysis reveals that global visual tokens contribute mainly in early LLM layers, inspiring the design of PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion module to pre-fuse global context into object tokens. This yields a lightweight Object-Only Framework that substantially reduces computational cost while maintaining high semantic fidelity. To facilitate fine-grained instruction tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction dataset. Extensive experiments across a range of benchmarks validate that PixelRefer achieves leading performance with fewer training samples, while PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.
PDF222December 31, 2025