PixelRefer: Унифицированная система пространственно-временного указания на объекты с произвольной гранулярностью
PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
October 27, 2025
Авторы: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
cs.AI
Аннотация
Мультимодальные большие языковые модели (MБЯМ) продемонстрировали мощные универсальные способности в области визуального понимания открытого мира. Однако большинство существующих МБЯМ в основном сосредоточены на целостном, сценарном понимании, часто упуская из виду необходимость тонкого, объектно-ориентированного анализа. В данной статье мы представляем PixelRefer — унифицированную фреймворк-архитектуру МБЯМ на уровне регионов, которая обеспечивает расширенное тонкое понимание задаваемых пользователем областей как на изображениях, так и в видео. Руководствуясь наблюдением, что внимание языковой модели в основном сосредоточено на токенах уровня объектов, мы предлагаем Масштабно-Адаптивный Объектный Токенизатор (Scale-Adaptive Object Tokenizer, SAOT) для генерации компактных и семантически насыщенных объектных представлений из регионов произвольной формы. Наш анализ показывает, что глобальные визуальные токены вносят основной вклад преимущественно в ранних слоях языковой модели, что вдохновило на создание PixelRefer-Lite — эффективного варианта, который использует модуль Объектно-Центрированной Инфузии для предварительного слияния глобального контекста в объектные токены. Это создает облегченную Объектно-Ориентированную Архитектуру, которая существенно снижает вычислительные затраты при сохранении высокой семантической точности. Для облегчения тонкой настройки по инструкциям мы подготовили PixelRefer-2.2M — высококачественный объектно-ориентированный набор данных инструкций. Многочисленные эксперименты на ряде бенчмарков подтверждают, что PixelRefer достигает лидирующей производительности при использовании меньшего количества обучающих выборок, в то время как PixelRefer-Lite предлагает конкурентоспособную точность с заметным выигрышем в эффективности.
English
Multimodal large language models (MLLMs) have demonstrated strong
general-purpose capabilities in open-world visual comprehension. However, most
existing MLLMs primarily focus on holistic, scene-level understanding, often
overlooking the need for fine-grained, object-centric reasoning. In this paper,
we present PixelRefer, a unified region-level MLLM framework that enables
advanced fine-grained understanding over user-specified regions across both
images and videos. Motivated by the observation that LLM attention
predominantly focuses on object-level tokens, we propose a Scale-Adaptive
Object Tokenizer (SAOT) to generate compact and semantically rich object
representations from free-form regions. Our analysis reveals that global visual
tokens contribute mainly in early LLM layers, inspiring the design of
PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion
module to pre-fuse global context into object tokens. This yields a lightweight
Object-Only Framework that substantially reduces computational cost while
maintaining high semantic fidelity. To facilitate fine-grained instruction
tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction
dataset. Extensive experiments across a range of benchmarks validate that
PixelRefer achieves leading performance with fewer training samples, while
PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.