Afferrare Qualsiasi Regione: Verso una Comprensione Precisa e Contestuale dei Pixel per Modelli Linguistici Multimodali
Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs
October 21, 2025
Autori: Haochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang
cs.AI
Abstract
Mentre i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) eccellono nella comprensione olistica, faticano a catturare un mondo denso con scene complesse, richiedendo un'analisi fine dei dettagli intricati e delle interrelazioni tra oggetti. I MLLMs a livello di regione hanno rappresentato un passo promettente. Tuttavia, i tentativi precedenti sono generalmente ottimizzati per comprendere regioni specifiche in isolamento, trascurando i contesti globali cruciali. Per affrontare questo problema, introduciamo Grasp Any Region (GAR) per una comprensione visiva a livello di regione completa. Potenziato da una tecnica efficace di replay delle caratteristiche allineate alle RoI, GAR supporta (1) una percezione precisa sfruttando i contesti globali necessari e (2) la modellazione delle interazioni tra più prompt. Insieme, raggiunge naturalmente (3) un ragionamento compositivo avanzato per rispondere a domande specifiche e libere su qualsiasi regione, spostando il paradigma dalla descrizione passiva al dialogo attivo. Inoltre, abbiamo costruito GAR-Bench, che non solo fornisce una valutazione più accurata della comprensione di singole regioni, ma, cosa ancora più importante, misura le interazioni e il ragionamento complesso tra più regioni. Esperimenti estesi hanno dimostrato che GAR-1B non solo mantiene le capacità di descrizione all'avanguardia, ad esempio superando DAM-3B di +4,5 su DLC-Bench, ma eccelle anche nella modellazione delle relazioni tra più prompt con capacità di comprensione avanzate, superando persino InternVL3-78B su GAR-Bench-VQA. Ancora più importante, il nostro GAR-8B zero-shot supera persino VideoRefer-7B specifico per dominio su VideoRefer-BenchQ, indicando che le sue forti capacità possono essere facilmente trasferite ai video.
English
While Multimodal Large Language Models (MLLMs) excel at holistic
understanding, they struggle in capturing the dense world with complex scenes,
requiring fine-grained analysis of intricate details and object
inter-relationships. Region-level MLLMs have been a promising step. However,
previous attempts are generally optimized to understand given regions in
isolation, neglecting crucial global contexts. To address this, we introduce
Grasp Any Region (GAR) for comprehen- sive region-level visual understanding.
Empowered by an effective RoI-aligned feature replay technique, GAR supports
(1) precise perception by leveraging necessary global contexts, and (2)
modeling interactions between multiple prompts. Together, it then naturally
achieves (3) advanced compositional reasoning to answer specific free-form
questions about any region, shifting the paradigm from passive description to
active dialogue. Moreover, we construct GAR-Bench, which not only provides a
more accurate evaluation of single-region comprehension, but also, more
importantly, measures interactions and complex reasoning across multiple
regions. Extensive experiments have demonstrated that GAR-1B not only maintains
the state-of-the-art captioning capabilities, e.g., outperforming DAM-3B +4.5
on DLC-Bench, but also excels at modeling relationships between multiple
prompts with advanced comprehension capabilities, even surpassing InternVL3-78B
on GAR-Bench-VQA. More importantly, our zero-shot GAR-8B even outperforms
in-domain VideoRefer-7B on VideoRefer-BenchQ, indicating its strong
capabilities can be easily transferred to videos.