任意領域の把握:マルチモーダルLLMのための精密で文脈を考慮したピクセル理解に向けて
Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs
October 21, 2025
著者: Haochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は全体的な理解において優れているものの、複雑なシーンを含む密集した世界を捉えることには苦戦しており、細部の緻密な分析やオブジェクト間の相互関係の理解が求められます。リージョンレベルのMLLMsは有望な一歩でした。しかし、これまでの試みは一般的に与えられたリージョンを孤立して理解するように最適化されており、重要なグローバルコンテキストを無視していました。この問題を解決するため、我々は包括的なリージョンレベル視覚理解のためのGrasp Any Region(GAR)を提案します。効果的なRoIアラインド特徴リプレイ技術を活用したGARは、(1)必要なグローバルコンテキストを活用した精密な知覚、(2)複数のプロンプト間の相互作用のモデリングをサポートします。これにより、(3)任意のリージョンに関する特定の自由形式の質問に答えるための高度な構成推論を自然に達成し、受動的な記述から能動的な対話へのパラダイムシフトを実現します。さらに、我々はGAR-Benchを構築し、単一リージョンの理解をより正確に評価するだけでなく、より重要なことに、複数のリージョン間の相互作用と複雑な推論を測定します。広範な実験により、GAR-1Bは最先端のキャプション生成能力を維持するだけでなく(例えば、DLC-BenchでDAM-3Bを+4.5上回る)、複数のプロンプト間の関係をモデル化する高度な理解能力においても優れており、GAR-Bench-VQAではInternVL3-78Bを上回りました。さらに重要なことに、ゼロショットのGAR-8Bは、VideoRefer-BenchQにおいてドメイン内のVideoRefer-7Bを上回り、その強力な能力が容易にビデオに転移可能であることを示しています。
English
While Multimodal Large Language Models (MLLMs) excel at holistic
understanding, they struggle in capturing the dense world with complex scenes,
requiring fine-grained analysis of intricate details and object
inter-relationships. Region-level MLLMs have been a promising step. However,
previous attempts are generally optimized to understand given regions in
isolation, neglecting crucial global contexts. To address this, we introduce
Grasp Any Region (GAR) for comprehen- sive region-level visual understanding.
Empowered by an effective RoI-aligned feature replay technique, GAR supports
(1) precise perception by leveraging necessary global contexts, and (2)
modeling interactions between multiple prompts. Together, it then naturally
achieves (3) advanced compositional reasoning to answer specific free-form
questions about any region, shifting the paradigm from passive description to
active dialogue. Moreover, we construct GAR-Bench, which not only provides a
more accurate evaluation of single-region comprehension, but also, more
importantly, measures interactions and complex reasoning across multiple
regions. Extensive experiments have demonstrated that GAR-1B not only maintains
the state-of-the-art captioning capabilities, e.g., outperforming DAM-3B +4.5
on DLC-Bench, but also excels at modeling relationships between multiple
prompts with advanced comprehension capabilities, even surpassing InternVL3-78B
on GAR-Bench-VQA. More importantly, our zero-shot GAR-8B even outperforms
in-domain VideoRefer-7B on VideoRefer-BenchQ, indicating its strong
capabilities can be easily transferred to videos.