Active-O3: Potenciando los Modelos de Lenguaje Multimodales de Gran Escala con Percepción Activa mediante GRPO
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO
May 27, 2025
Autores: Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen
cs.AI
Resumen
La visión activa, también conocida como percepción activa, se refiere al proceso de seleccionar activamente dónde y cómo mirar para recopilar información relevante para una tarea. Es un componente crítico de la percepción eficiente y la toma de decisiones en humanos y agentes corporizados avanzados. Recientemente, el uso de Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) como módulos centrales de planificación y toma de decisiones en sistemas robóticos ha ganado una atención considerable. Sin embargo, a pesar de la importancia de la percepción activa en la inteligencia corporizada, existe poca o ninguna exploración sobre cómo los MLLMs pueden ser equipados o aprender capacidades de percepción activa. En este artículo, primero proporcionamos una definición sistemática de las tareas de percepción activa basadas en MLLMs. Señalamos que la estrategia de búsqueda de zoom propuesta recientemente en el modelo GPT-o3 puede considerarse un caso especial de percepción activa; no obstante, aún sufre de baja eficiencia en la búsqueda y selección imprecisa de regiones. Para abordar estos problemas, proponemos ACTIVE-O3, un marco de entrenamiento basado únicamente en aprendizaje por refuerzo construido sobre GRPO, diseñado para equipar a los MLLMs con capacidades de percepción activa. Además, establecemos un conjunto integral de benchmarks para evaluar ACTIVE-O3 en tareas generales de mundo abierto, como la localización de objetos pequeños y densos, y escenarios específicos de dominio, incluyendo la detección de objetos pequeños en teledetección y conducción autónoma, así como la segmentación interactiva de grano fino. Adicionalmente, ACTIVE-O3 también demuestra fuertes habilidades de razonamiento zero-shot en el Benchmark V*, sin depender de ningún dato explícito de razonamiento. Esperamos que nuestro trabajo pueda proporcionar una base de código simple y un protocolo de evaluación para facilitar futuras investigaciones sobre percepción activa en MLLMs.
English
Active vision, also known as active perception, refers to the process of
actively selecting where and how to look in order to gather task-relevant
information. It is a critical component of efficient perception and
decision-making in humans and advanced embodied agents. Recently, the use of
Multimodal Large Language Models (MLLMs) as central planning and
decision-making modules in robotic systems has gained extensive attention.
However, despite the importance of active perception in embodied intelligence,
there is little to no exploration of how MLLMs can be equipped with or learn
active perception capabilities. In this paper, we first provide a systematic
definition of MLLM-based active perception tasks. We point out that the
recently proposed GPT-o3 model's zoom-in search strategy can be regarded as a
special case of active perception; however, it still suffers from low search
efficiency and inaccurate region selection. To address these issues, we propose
ACTIVE-O3, a purely reinforcement learning based training framework built on
top of GRPO, designed to equip MLLMs with active perception capabilities. We
further establish a comprehensive benchmark suite to evaluate ACTIVE-O3 across
both general open-world tasks, such as small-object and dense object grounding,
and domain-specific scenarios, including small object detection in remote
sensing and autonomous driving, as well as fine-grained interactive
segmentation. In addition, ACTIVE-O3 also demonstrates strong zero-shot
reasoning abilities on the V* Benchmark, without relying on any explicit
reasoning data. We hope that our work can provide a simple codebase and
evaluation protocol to facilitate future research on active perception in
MLLMs.Summary
AI-Generated Summary