PixelRefer: Un Marco Unificado para la Referencia Espacio-Temporal de Objetos con Granularidad Arbitraria
PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
October 27, 2025
Autores: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
cs.AI
Resumen
Los modelos de lenguaje multimodal (MLLM) han demostrado sólidas capacidades de propósito general en la comprensión visual de mundo abierto. Sin embargo, la mayoría de los MLLM existentes se centran principalmente en una comprensión holística a nivel de escena, pasando a menudo por alto la necesidad de un razonamiento de grano fino centrado en objetos. En este artículo, presentamos PixelRefer, un marco unificado de MLLM a nivel de región que permite una comprensión avanzada de grano fino sobre regiones especificadas por el usuario tanto en imágenes como en vídeos. Motivados por la observación de que la atención de los LLM se centra predominantemente en tokens a nivel de objeto, proponemos un Tokenizador de Objetos Adaptativo a la Escala (SAOT) para generar representaciones de objetos compactas y semánticamente ricas a partir de regiones de forma libre. Nuestro análisis revela que los tokens visuales globales contribuyen principalmente en las primeras capas del LLM, lo que inspira el diseño de PixelRefer-Lite, una variante eficiente que emplea un módulo de Infusión Centrado en Objetos para prefusionar el contexto global en los tokens de objeto. Esto da lugar a un Marco Liviano Solo de Objetos que reduce sustancialmente el coste computacional manteniendo una alta fidelidad semántica. Para facilitar el ajuste instruccional de grano fino, hemos creado PixelRefer-2.2M, un conjunto de datos de instrucciones de alta calidad centrado en objetos. Experimentos exhaustivos en una variedad de benchmarks validan que PixelRefer logra un rendimiento líder con menos muestras de entrenamiento, mientras que PixelRefer-Lite ofrece una precisión competitiva con ganancias notables en eficiencia.
English
Multimodal large language models (MLLMs) have demonstrated strong
general-purpose capabilities in open-world visual comprehension. However, most
existing MLLMs primarily focus on holistic, scene-level understanding, often
overlooking the need for fine-grained, object-centric reasoning. In this paper,
we present PixelRefer, a unified region-level MLLM framework that enables
advanced fine-grained understanding over user-specified regions across both
images and videos. Motivated by the observation that LLM attention
predominantly focuses on object-level tokens, we propose a Scale-Adaptive
Object Tokenizer (SAOT) to generate compact and semantically rich object
representations from free-form regions. Our analysis reveals that global visual
tokens contribute mainly in early LLM layers, inspiring the design of
PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion
module to pre-fuse global context into object tokens. This yields a lightweight
Object-Only Framework that substantially reduces computational cost while
maintaining high semantic fidelity. To facilitate fine-grained instruction
tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction
dataset. Extensive experiments across a range of benchmarks validate that
PixelRefer achieves leading performance with fewer training samples, while
PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.