Agarra cualquier región: Hacia una comprensión precisa y contextual de píxeles para modelos de lenguaje multimodal.
Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs
October 21, 2025
Autores: Haochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang
cs.AI
Resumen
Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) destacan en la comprensión holística, enfrentan dificultades para capturar un mundo denso con escenas complejas, lo que requiere un análisis detallado de intrincados detalles y las interrelaciones entre objetos. Los MLLMs a nivel de región han representado un paso prometedor. Sin embargo, intentos anteriores generalmente se han optimizado para comprender regiones dadas de manera aislada, descuidando contextos globales cruciales. Para abordar esto, presentamos Grasp Any Region (GAR) para una comprensión visual integral a nivel de región. Potenciado por una técnica efectiva de reproducción de características alineadas con la Región de Interés (RoI), GAR permite (1) una percepción precisa al aprovechar los contextos globales necesarios, y (2) modelar interacciones entre múltiples indicaciones. Juntos, logran naturalmente (3) un razonamiento composicional avanzado para responder preguntas específicas de formato libre sobre cualquier región, cambiando el paradigma de la descripción pasiva al diálogo activo. Además, construimos GAR-Bench, que no solo proporciona una evaluación más precisa de la comprensión de una sola región, sino que, más importante aún, mide interacciones y razonamientos complejos entre múltiples regiones. Experimentos extensos han demostrado que GAR-1B no solo mantiene capacidades de descripción de última generación, por ejemplo, superando a DAM-3B en +4.5 en DLC-Bench, sino que también sobresale en modelar relaciones entre múltiples indicaciones con capacidades de comprensión avanzadas, incluso superando a InternVL3-78B en GAR-Bench-VQA. Más importante aún, nuestro GAR-8B en modo zero-shot incluso supera a VideoRefer-7B en VideoRefer-BenchQ, lo que indica que sus fuertes capacidades pueden transferirse fácilmente a videos.
English
While Multimodal Large Language Models (MLLMs) excel at holistic
understanding, they struggle in capturing the dense world with complex scenes,
requiring fine-grained analysis of intricate details and object
inter-relationships. Region-level MLLMs have been a promising step. However,
previous attempts are generally optimized to understand given regions in
isolation, neglecting crucial global contexts. To address this, we introduce
Grasp Any Region (GAR) for comprehen- sive region-level visual understanding.
Empowered by an effective RoI-aligned feature replay technique, GAR supports
(1) precise perception by leveraging necessary global contexts, and (2)
modeling interactions between multiple prompts. Together, it then naturally
achieves (3) advanced compositional reasoning to answer specific free-form
questions about any region, shifting the paradigm from passive description to
active dialogue. Moreover, we construct GAR-Bench, which not only provides a
more accurate evaluation of single-region comprehension, but also, more
importantly, measures interactions and complex reasoning across multiple
regions. Extensive experiments have demonstrated that GAR-1B not only maintains
the state-of-the-art captioning capabilities, e.g., outperforming DAM-3B +4.5
on DLC-Bench, but also excels at modeling relationships between multiple
prompts with advanced comprehension capabilities, even surpassing InternVL3-78B
on GAR-Bench-VQA. More importantly, our zero-shot GAR-8B even outperforms
in-domain VideoRefer-7B on VideoRefer-BenchQ, indicating its strong
capabilities can be easily transferred to videos.