ChatPaper.aiChatPaper

PixelRefer: Ein einheitlicher Rahmenwerk für räumlich-zeitliche Objektreferenzierung mit beliebiger Granularität

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

October 27, 2025
papers.authors: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
cs.AI

papers.abstract

Multimodale große Sprachmodelle (MLLMs) haben starke Allzweckfähigkeiten im visuellen Verständnis offener Welten demonstriert. Die meisten existierenden MLLMs konzentrieren sich jedoch primär auf ein holistisches, szenenbezogenes Verständnis und übersehen häufig den Bedarf an feinkörniger, objektzentrierter Reasoning. In diesem Artikel stellen wir PixelRefer vor, einen vereinheitlichten regionsbasierten MLLM-Rahmen, der fortschrittliches feinkörniges Verständnis für benutzerdefinierte Regionen in sowohl Bildern als auch Videos ermöglicht. Angeregt durch die Beobachtung, dass sich die Aufmerksamkeit von LLMs überwiegend auf objektbezogene Tokens konzentriert, schlagen wir einen skalierungsadaptiven Object Tokenizer (SAOT) vor, um kompakte und semantisch reiche Objektrepräsentationen aus freiform Regionen zu generieren. Unsere Analyse zeigt, dass globale visuelle Tokens hauptsächlich in frühen LLM-Schichten beitragen, was das Design von PixelRefer-Lite inspiriert, einer effizienten Variante, die ein Object-Centric Infusion-Modul einsetzt, um globalen Kontext vorab in Objekt-Tokens zu fusionieren. Dies ergibt ein leichtgewichtiges Object-Only Framework, das die Rechenkosten erheblich reduziert und gleichzeitig eine hohe semantische Treue beibehält. Um feinkörniges Instruction Tuning zu ermöglichen, haben wir PixelRefer-2.2M kuratiert, einen hochwertigen, objektzentrierten Instruktionsdatensatz. Umfangreiche Experimente über eine Reihe von Benchmarks validieren, dass PixelRefer mit weniger Trainingsdaten eine führende Leistung erzielt, während PixelRefer-Lite eine wettbewerbsfähige Genauigkeit mit bemerkenswerten Effizienzgewinnen bietet.
English
Multimodal large language models (MLLMs) have demonstrated strong general-purpose capabilities in open-world visual comprehension. However, most existing MLLMs primarily focus on holistic, scene-level understanding, often overlooking the need for fine-grained, object-centric reasoning. In this paper, we present PixelRefer, a unified region-level MLLM framework that enables advanced fine-grained understanding over user-specified regions across both images and videos. Motivated by the observation that LLM attention predominantly focuses on object-level tokens, we propose a Scale-Adaptive Object Tokenizer (SAOT) to generate compact and semantically rich object representations from free-form regions. Our analysis reveals that global visual tokens contribute mainly in early LLM layers, inspiring the design of PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion module to pre-fuse global context into object tokens. This yields a lightweight Object-Only Framework that substantially reduces computational cost while maintaining high semantic fidelity. To facilitate fine-grained instruction tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction dataset. Extensive experiments across a range of benchmarks validate that PixelRefer achieves leading performance with fewer training samples, while PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.
PDF222December 31, 2025