ChatPaper.aiChatPaper

Pak Elk Gebied Aan: Op Weg Naar Nauwkeurig, Contextueel Pixelbegrip voor Multimodale LLM's

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

October 21, 2025
Auteurs: Haochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang
cs.AI

Samenvatting

Hoewel Multimodale Grote Taalmodellen (MLLMs) uitblinken in holistisch begrip, hebben ze moeite met het vastleggen van de complexe wereld met ingewikkelde scènes, wat een gedetailleerde analyse van ingewikkelde details en objectrelaties vereist. Region-level MLLMs zijn een veelbelovende stap geweest. Eerdere pogingen zijn echter over het algemeen geoptimaliseerd om gegeven regio's in isolatie te begrijpen, waarbij cruciale globale contexten worden verwaarloosd. Om dit aan te pakken, introduceren we Grasp Any Region (GAR) voor uitgebreid region-level visueel begrip. Gekoppeld aan een effectieve RoI-uitgelijnde feature replay-techniek, ondersteunt GAR (1) precieze waarneming door gebruik te maken van noodzakelijke globale contexten, en (2) het modelleren van interacties tussen meerdere prompts. Samen bereikt het dan van nature (3) geavanceerd compositioneel redeneren om specifieke vrije-vorm vragen over elke regio te beantwoorden, waardoor het paradigma verschuift van passieve beschrijving naar actieve dialoog. Bovendien hebben we GAR-Bench geconstrueerd, dat niet alleen een nauwkeurigere evaluatie biedt van het begrip van een enkele regio, maar ook, nog belangrijker, interacties en complex redeneren over meerdere regio's meet. Uitgebreide experimenten hebben aangetoond dat GAR-1B niet alleen de state-of-the-art captioning-capaciteiten behoudt, bijvoorbeeld DAM-3B met +4,5 verslaat op DLC-Bench, maar ook uitblinkt in het modelleren van relaties tussen meerdere prompts met geavanceerde begripscapaciteiten, en zelfs InternVL3-78B overtreft op GAR-Bench-VQA. Nog belangrijker is dat onze zero-shot GAR-8B zelfs in-domain VideoRefer-7B overtreft op VideoRefer-BenchQ, wat aangeeft dat de sterke capaciteiten eenvoudig kunnen worden overgedragen naar video's.
English
While Multimodal Large Language Models (MLLMs) excel at holistic understanding, they struggle in capturing the dense world with complex scenes, requiring fine-grained analysis of intricate details and object inter-relationships. Region-level MLLMs have been a promising step. However, previous attempts are generally optimized to understand given regions in isolation, neglecting crucial global contexts. To address this, we introduce Grasp Any Region (GAR) for comprehen- sive region-level visual understanding. Empowered by an effective RoI-aligned feature replay technique, GAR supports (1) precise perception by leveraging necessary global contexts, and (2) modeling interactions between multiple prompts. Together, it then naturally achieves (3) advanced compositional reasoning to answer specific free-form questions about any region, shifting the paradigm from passive description to active dialogue. Moreover, we construct GAR-Bench, which not only provides a more accurate evaluation of single-region comprehension, but also, more importantly, measures interactions and complex reasoning across multiple regions. Extensive experiments have demonstrated that GAR-1B not only maintains the state-of-the-art captioning capabilities, e.g., outperforming DAM-3B +4.5 on DLC-Bench, but also excels at modeling relationships between multiple prompts with advanced comprehension capabilities, even surpassing InternVL3-78B on GAR-Bench-VQA. More importantly, our zero-shot GAR-8B even outperforms in-domain VideoRefer-7B on VideoRefer-BenchQ, indicating its strong capabilities can be easily transferred to videos.
PDF312October 22, 2025