ChatPaper.aiChatPaper

Захват любой области: к точному, контекстному пониманию пикселей для мультимодальных больших языковых моделей

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

October 21, 2025
Авторы: Haochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang
cs.AI

Аннотация

Хотя мультимодальные большие языковые модели (MLLMs) преуспевают в целостном понимании, они испытывают трудности при анализе сложных сцен с высокой плотностью объектов, требующих детального анализа тонких деталей и взаимосвязей между объектами. Региональные MLLMs стали многообещающим шагом в этом направлении. Однако предыдущие попытки, как правило, были оптимизированы для понимания заданных регионов изолированно, игнорируя важные глобальные контексты. Чтобы решить эту проблему, мы представляем Grasp Any Region (GAR) для всестороннего визуального понимания на уровне регионов. Благодаря эффективной технике воспроизведения признаков, выровненных по области интереса (RoI), GAR поддерживает (1) точное восприятие за счет использования необходимых глобальных контекстов и (2) моделирование взаимодействий между несколькими запросами. В совокупности это естественным образом приводит к (3) продвинутому композиционному рассуждению для ответа на конкретные свободные вопросы о любом регионе, смещая парадигму от пассивного описания к активному диалогу. Кроме того, мы создаем GAR-Bench, который не только обеспечивает более точную оценку понимания одного региона, но и, что более важно, измеряет взаимодействия и сложные рассуждения между несколькими регионами. Многочисленные эксперименты показали, что GAR-1B не только сохраняет передовые возможности генерации описаний, например, превосходя DAM-3B на +4.5 на DLC-Bench, но и преуспевает в моделировании отношений между несколькими запросами с продвинутыми способностями к пониманию, даже опережая InternVL3-78B на GAR-Bench-VQA. Что еще важнее, наша модель GAR-8B, обученная с нуля, превосходит специализированную VideoRefer-7B на VideoRefer-BenchQ, что указывает на ее сильные возможности, которые легко переносятся на видео.
English
While Multimodal Large Language Models (MLLMs) excel at holistic understanding, they struggle in capturing the dense world with complex scenes, requiring fine-grained analysis of intricate details and object inter-relationships. Region-level MLLMs have been a promising step. However, previous attempts are generally optimized to understand given regions in isolation, neglecting crucial global contexts. To address this, we introduce Grasp Any Region (GAR) for comprehen- sive region-level visual understanding. Empowered by an effective RoI-aligned feature replay technique, GAR supports (1) precise perception by leveraging necessary global contexts, and (2) modeling interactions between multiple prompts. Together, it then naturally achieves (3) advanced compositional reasoning to answer specific free-form questions about any region, shifting the paradigm from passive description to active dialogue. Moreover, we construct GAR-Bench, which not only provides a more accurate evaluation of single-region comprehension, but also, more importantly, measures interactions and complex reasoning across multiple regions. Extensive experiments have demonstrated that GAR-1B not only maintains the state-of-the-art captioning capabilities, e.g., outperforming DAM-3B +4.5 on DLC-Bench, but also excels at modeling relationships between multiple prompts with advanced comprehension capabilities, even surpassing InternVL3-78B on GAR-Bench-VQA. More importantly, our zero-shot GAR-8B even outperforms in-domain VideoRefer-7B on VideoRefer-BenchQ, indicating its strong capabilities can be easily transferred to videos.
PDF312October 22, 2025