어떤 영역이든 파악하기: 멀티모달 LLM을 위한 정밀하고 문맥 기반의 픽셀 이해
Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs
October 21, 2025
저자: Haochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 전체적인 이해에 뛰어나지만, 복잡한 장면으로 가득 찬 세밀한 세계를 포착하는 데 어려움을 겪으며, 복잡한 세부 사항과 객체 간의 상호 관계에 대한 세밀한 분석이 필요합니다. 지역 수준의 MLLMs는 유망한 단계였습니다. 그러나 기존의 시도들은 일반적으로 주어진 지역을 고립적으로 이해하도록 최적화되어 있어, 중요한 전역적 맥락을 간과했습니다. 이를 해결하기 위해, 우리는 포괄적인 지역 수준의 시각적 이해를 위한 Grasp Any Region(GAR)을 소개합니다. 효과적인 RoI 정렬 특징 재생 기술로 강화된 GAR은 (1) 필요한 전역적 맥락을 활용한 정확한 인지와 (2) 여러 프롬프트 간의 상호 작용 모델링을 지원합니다. 이를 통해 (3) 특정 자유 형식 질문에 대한 고급 구성적 추론을 자연스럽게 달성하며, 수동적인 설명에서 능동적인 대화로 패러다임을 전환합니다. 또한, 우리는 GAR-Bench를 구축하여 단일 지역 이해에 대한 더 정확한 평가를 제공할 뿐만 아니라, 더 중요한 것은 여러 지역 간의 상호 작용과 복잡한 추론을 측정합니다. 광범위한 실험을 통해 GAR-1B가 최첨단 캡션 기능을 유지하면서도, 예를 들어 DLC-Bench에서 DAM-3B를 +4.5점 앞서는 성과를 보였고, 여러 프롬프트 간의 관계 모델링에서도 뛰어난 이해 능력을 보여 GAR-Bench-VQA에서 InternVL3-78B를 능가했습니다. 더 중요한 것은, 우리의 제로샷 GAR-8B가 VideoRefer-BenchQ에서 도메인 내 VideoRefer-7B를 능가하며, 그 강력한 능력이 비디오로 쉽게 전이될 수 있음을 보여주었습니다.
English
While Multimodal Large Language Models (MLLMs) excel at holistic
understanding, they struggle in capturing the dense world with complex scenes,
requiring fine-grained analysis of intricate details and object
inter-relationships. Region-level MLLMs have been a promising step. However,
previous attempts are generally optimized to understand given regions in
isolation, neglecting crucial global contexts. To address this, we introduce
Grasp Any Region (GAR) for comprehen- sive region-level visual understanding.
Empowered by an effective RoI-aligned feature replay technique, GAR supports
(1) precise perception by leveraging necessary global contexts, and (2)
modeling interactions between multiple prompts. Together, it then naturally
achieves (3) advanced compositional reasoning to answer specific free-form
questions about any region, shifting the paradigm from passive description to
active dialogue. Moreover, we construct GAR-Bench, which not only provides a
more accurate evaluation of single-region comprehension, but also, more
importantly, measures interactions and complex reasoning across multiple
regions. Extensive experiments have demonstrated that GAR-1B not only maintains
the state-of-the-art captioning capabilities, e.g., outperforming DAM-3B +4.5
on DLC-Bench, but also excels at modeling relationships between multiple
prompts with advanced comprehension capabilities, even surpassing InternVL3-78B
on GAR-Bench-VQA. More importantly, our zero-shot GAR-8B even outperforms
in-domain VideoRefer-7B on VideoRefer-BenchQ, indicating its strong
capabilities can be easily transferred to videos.