ChatPaper.aiChatPaper

PixelRefer: Een Geïntegreerd Kader voor Ruimtelijk-Temporele Objectverwijzing met Willekeurige Granulariteit

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

October 27, 2025
Auteurs: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
cs.AI

Samenvatting

Multimodale grote taalmodellen (MLLM's) hebben sterke algemene capaciteiten getoond in visueel begrip van de open wereld. De meeste bestaande MLLM's richten zich echter voornamelijk op holistisch, sceneniveau-begrip en zien vaak de behoefte aan fijnmazige, objectgerichte redenering over het hoofd. In dit artikel presenteren we PixelRefer, een uniform MLLM-raamwerk op regioniveau dat geavanceerd fijnmazig begrip mogelijk maakt voor door de gebruiker gespecificeerde regio's in zowel afbeeldingen als video's. Gemotiveerd door de observatie dat LLM-aandacht zich voornamelijk richt op tokens op objectniveau, stellen we een Schaaladaptieve Object Tokenizer (SAOT) voor om compacte en semantisch rijke objectrepresentaties te genereren uit vrij-vorm regio's. Onze analyse toont aan dat globale visuele tokens voornamelijk bijdragen in de vroege LLM-lagen, wat de ontwerpinspiratie vormt voor PixelRefer-Lite, een efficiënte variant die een Objectgerichte Infusiemodule gebruikt om globale context vooraf te versmelten met objecttokens. Dit resulteert in een lichtgewicht Object-Only Framework dat de rekenkosten aanzienlijk verlaagt terwijl een hoge semantische trouw behouden blijft. Om fijnmazige instructie-afstemming te vergemakkelijken, hebben we PixelRefer-2.2M samengesteld, een hoogwaardige objectgerichte instructiedataset. Uitgebreide experimenten over een reeks benchmarks valideren dat PixelRefer toonaangevende prestaties bereikt met minder trainingsvoorbeelden, terwijl PixelRefer-Lite competitieve nauwkeurigheid biedt met aanzienlijke efficiëntiewinst.
English
Multimodal large language models (MLLMs) have demonstrated strong general-purpose capabilities in open-world visual comprehension. However, most existing MLLMs primarily focus on holistic, scene-level understanding, often overlooking the need for fine-grained, object-centric reasoning. In this paper, we present PixelRefer, a unified region-level MLLM framework that enables advanced fine-grained understanding over user-specified regions across both images and videos. Motivated by the observation that LLM attention predominantly focuses on object-level tokens, we propose a Scale-Adaptive Object Tokenizer (SAOT) to generate compact and semantically rich object representations from free-form regions. Our analysis reveals that global visual tokens contribute mainly in early LLM layers, inspiring the design of PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion module to pre-fuse global context into object tokens. This yields a lightweight Object-Only Framework that substantially reduces computational cost while maintaining high semantic fidelity. To facilitate fine-grained instruction tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction dataset. Extensive experiments across a range of benchmarks validate that PixelRefer achieves leading performance with fewer training samples, while PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.
PDF222December 31, 2025