Active-O3: Capacitando Modelos de Linguagem Multimodais de Grande Escala com Percepção Ativa via GRPO
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO
May 27, 2025
Autores: Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen
cs.AI
Resumo
Visão ativa, também conhecida como percepção ativa, refere-se ao processo de selecionar ativamente onde e como olhar para coletar informações relevantes para a tarefa. É um componente crítico para a percepção eficiente e a tomada de decisões em humanos e agentes corporificados avançados. Recentemente, o uso de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) como módulos centrais de planejamento e tomada de decisão em sistemas robóticos tem recebido ampla atenção. No entanto, apesar da importância da percepção ativa na inteligência corporificada, há pouca ou nenhuma exploração sobre como os MLLMs podem ser equipados ou aprender capacidades de percepção ativa. Neste artigo, primeiro fornecemos uma definição sistemática de tarefas de percepção ativa baseadas em MLLMs. Apontamos que a estratégia de busca de zoom do modelo GPT-o3, recentemente proposta, pode ser considerada um caso especial de percepção ativa; no entanto, ela ainda sofre com baixa eficiência de busca e seleção imprecisa de regiões. Para resolver esses problemas, propomos o ACTIVE-O3, um framework de treinamento baseado puramente em aprendizado por reforço, construído sobre o GRPO, projetado para equipar MLLMs com capacidades de percepção ativa. Além disso, estabelecemos um conjunto abrangente de benchmarks para avaliar o ACTIVE-O3 em tarefas gerais do mundo aberto, como a localização de objetos pequenos e densos, e em cenários específicos de domínio, incluindo detecção de objetos pequenos em sensoriamento remoto e direção autônoma, bem como segmentação interativa de granularidade fina. Adicionalmente, o ACTIVE-O3 também demonstra fortes habilidades de raciocínio zero-shot no Benchmark V*, sem depender de dados explícitos de raciocínio. Esperamos que nosso trabalho possa fornecer uma base de código simples e um protocolo de avaliação para facilitar pesquisas futuras sobre percepção ativa em MLLMs.
English
Active vision, also known as active perception, refers to the process of
actively selecting where and how to look in order to gather task-relevant
information. It is a critical component of efficient perception and
decision-making in humans and advanced embodied agents. Recently, the use of
Multimodal Large Language Models (MLLMs) as central planning and
decision-making modules in robotic systems has gained extensive attention.
However, despite the importance of active perception in embodied intelligence,
there is little to no exploration of how MLLMs can be equipped with or learn
active perception capabilities. In this paper, we first provide a systematic
definition of MLLM-based active perception tasks. We point out that the
recently proposed GPT-o3 model's zoom-in search strategy can be regarded as a
special case of active perception; however, it still suffers from low search
efficiency and inaccurate region selection. To address these issues, we propose
ACTIVE-O3, a purely reinforcement learning based training framework built on
top of GRPO, designed to equip MLLMs with active perception capabilities. We
further establish a comprehensive benchmark suite to evaluate ACTIVE-O3 across
both general open-world tasks, such as small-object and dense object grounding,
and domain-specific scenarios, including small object detection in remote
sensing and autonomous driving, as well as fine-grained interactive
segmentation. In addition, ACTIVE-O3 also demonstrates strong zero-shot
reasoning abilities on the V* Benchmark, without relying on any explicit
reasoning data. We hope that our work can provide a simple codebase and
evaluation protocol to facilitate future research on active perception in
MLLMs.