ChatPaper.aiChatPaper

Greifen Sie jede Region: Auf dem Weg zu präzisem, kontextuellem Pixelverständnis für multimodale LLMs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

October 21, 2025
papers.authors: Haochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang
cs.AI

papers.abstract

Während Multimodale Große Sprachmodelle (MLLMs) in der ganzheitlichen Wahrnehmung hervorragend sind, haben sie Schwierigkeiten, die komplexe Welt mit dichten Szenen zu erfassen, was eine feinkörnige Analyse von komplizierten Details und Objektbeziehungen erfordert. Regionenbezogene MLLMs waren ein vielversprechender Schritt. Bisherige Ansätze sind jedoch in der Regel darauf optimiert, gegebene Regionen isoliert zu verstehen, wodurch entscheidende globale Kontexte vernachlässigt werden. Um dies zu adressieren, führen wir Grasp Any Region (GAR) für ein umfassendes, regionenbezogenes visuelles Verständnis ein. Durch eine effektive RoI-ausgerichtete Feature-Replay-Technik unterstützt GAR (1) eine präzise Wahrnehmung durch die Nutzung notwendiger globaler Kontexte und (2) die Modellierung von Interaktionen zwischen mehreren Prompts. Zusammen erreicht es dann natürlich (3) fortgeschrittenes kompositionelles Denken, um spezifische freiformulierte Fragen zu jeder Region zu beantworten, wodurch das Paradigma von der passiven Beschreibung zum aktiven Dialog verschoben wird. Darüber hinaus haben wir GAR-Bench entwickelt, das nicht nur eine genauere Bewertung des Einzelregionen-Verständnisses bietet, sondern noch wichtiger, Interaktionen und komplexes Denken über mehrere Regionen hinweg misst. Umfangreiche Experimente haben gezeigt, dass GAR-1B nicht nur die state-of-the-art Beschreibungskapazitäten beibehält, z.B. DAM-3B auf DLC-Bench um +4.5 übertrifft, sondern auch bei der Modellierung von Beziehungen zwischen mehreren Prompts mit fortgeschrittenen Verständnisfähigkeiten hervorragt und sogar InternVL3-78B auf GAR-Bench-VQA übertrifft. Noch wichtiger ist, dass unser Zero-Shot GAR-8B sogar das domänenspezifische VideoRefer-7B auf VideoRefer-BenchQ übertrifft, was auf seine starken Fähigkeiten hinweist, die leicht auf Videos übertragen werden können.
English
While Multimodal Large Language Models (MLLMs) excel at holistic understanding, they struggle in capturing the dense world with complex scenes, requiring fine-grained analysis of intricate details and object inter-relationships. Region-level MLLMs have been a promising step. However, previous attempts are generally optimized to understand given regions in isolation, neglecting crucial global contexts. To address this, we introduce Grasp Any Region (GAR) for comprehen- sive region-level visual understanding. Empowered by an effective RoI-aligned feature replay technique, GAR supports (1) precise perception by leveraging necessary global contexts, and (2) modeling interactions between multiple prompts. Together, it then naturally achieves (3) advanced compositional reasoning to answer specific free-form questions about any region, shifting the paradigm from passive description to active dialogue. Moreover, we construct GAR-Bench, which not only provides a more accurate evaluation of single-region comprehension, but also, more importantly, measures interactions and complex reasoning across multiple regions. Extensive experiments have demonstrated that GAR-1B not only maintains the state-of-the-art captioning capabilities, e.g., outperforming DAM-3B +4.5 on DLC-Bench, but also excels at modeling relationships between multiple prompts with advanced comprehension capabilities, even surpassing InternVL3-78B on GAR-Bench-VQA. More importantly, our zero-shot GAR-8B even outperforms in-domain VideoRefer-7B on VideoRefer-BenchQ, indicating its strong capabilities can be easily transferred to videos.
PDF312October 22, 2025