Agarre Qualquer Região: Rumo à Compreensão Precisa e Contextual de Pixels para LLMs Multimodais
Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs
October 21, 2025
Autores: Haochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang
cs.AI
Resumo
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destaquem na compreensão holística, eles enfrentam dificuldades em capturar o mundo denso com cenas complexas, exigindo uma análise refinada de detalhes intrincados e das inter-relações entre objetos. Os MLLMs em nível de região têm sido um passo promissor. No entanto, tentativas anteriores geralmente são otimizadas para entender regiões específicas de forma isolada, negligenciando contextos globais cruciais. Para abordar isso, introduzimos o Grasp Any Region (GAR) para uma compreensão visual abrangente em nível de região. Potencializado por uma técnica eficaz de replay de características alinhadas à Região de Interesse (RoI), o GAR suporta (1) percepção precisa ao aproveitar contextos globais necessários e (2) modelar interações entre múltiplos prompts. Juntos, eles naturalmente alcançam (3) raciocínio composicional avançado para responder a perguntas específicas de forma livre sobre qualquer região, mudando o paradigma da descrição passiva para o diálogo ativo. Além disso, construímos o GAR-Bench, que não apenas fornece uma avaliação mais precisa da compreensão de uma única região, mas também, e mais importante, mede interações e raciocínios complexos entre múltiplas regiões. Experimentos extensivos demonstraram que o GAR-1B não apenas mantém as capacidades de legendagem de última geração, por exemplo, superando o DAM-3B em +4,5 no DLC-Bench, mas também se destaca na modelagem de relações entre múltiplos prompts com capacidades avançadas de compreensão, superando até mesmo o InternVL3-78B no GAR-Bench-VQA. Mais importante ainda, nosso GAR-8B zero-shot supera até mesmo o VideoRefer-7B no VideoRefer-BenchQ, indicando que suas fortes capacidades podem ser facilmente transferidas para vídeos.
English
While Multimodal Large Language Models (MLLMs) excel at holistic
understanding, they struggle in capturing the dense world with complex scenes,
requiring fine-grained analysis of intricate details and object
inter-relationships. Region-level MLLMs have been a promising step. However,
previous attempts are generally optimized to understand given regions in
isolation, neglecting crucial global contexts. To address this, we introduce
Grasp Any Region (GAR) for comprehen- sive region-level visual understanding.
Empowered by an effective RoI-aligned feature replay technique, GAR supports
(1) precise perception by leveraging necessary global contexts, and (2)
modeling interactions between multiple prompts. Together, it then naturally
achieves (3) advanced compositional reasoning to answer specific free-form
questions about any region, shifting the paradigm from passive description to
active dialogue. Moreover, we construct GAR-Bench, which not only provides a
more accurate evaluation of single-region comprehension, but also, more
importantly, measures interactions and complex reasoning across multiple
regions. Extensive experiments have demonstrated that GAR-1B not only maintains
the state-of-the-art captioning capabilities, e.g., outperforming DAM-3B +4.5
on DLC-Bench, but also excels at modeling relationships between multiple
prompts with advanced comprehension capabilities, even surpassing InternVL3-78B
on GAR-Bench-VQA. More importantly, our zero-shot GAR-8B even outperforms
in-domain VideoRefer-7B on VideoRefer-BenchQ, indicating its strong
capabilities can be easily transferred to videos.