Active-O3 : Renforcer les modèles de langage multimodaux de grande taille avec la perception active via GRPO
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO
May 27, 2025
Auteurs: Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen
cs.AI
Résumé
La vision active, également connue sous le nom de perception active, désigne le processus de sélection active des zones et des manières de regarder afin de recueillir des informations pertinentes pour une tâche donnée. Elle constitue un élément essentiel pour une perception et une prise de décision efficaces chez les humains et les agents incarnés avancés. Récemment, l'utilisation de modèles de langage multimodaux de grande taille (MLLMs) comme modules centraux de planification et de prise de décision dans les systèmes robotiques a suscité une attention considérable. Cependant, malgré l'importance de la perception active dans l'intelligence incarnée, il existe peu ou pas d'exploration sur la manière dont les MLLMs peuvent être dotés ou apprendre des capacités de perception active. Dans cet article, nous proposons d'abord une définition systématique des tâches de perception active basées sur les MLLMs. Nous soulignons que la stratégie de recherche par zoom récemment proposée par le modèle GPT-o3 peut être considérée comme un cas particulier de perception active ; toutefois, elle souffre encore d'une faible efficacité de recherche et d'une sélection de régions imprécises. Pour résoudre ces problèmes, nous proposons ACTIVE-O3, un cadre d'apprentissage par renforcement pur construit sur GRPO, conçu pour doter les MLLMs de capacités de perception active. Nous établissons également une suite de benchmarks complète pour évaluer ACTIVE-O3 sur des tâches générales en monde ouvert, telles que la localisation de petits objets et d'objets denses, ainsi que sur des scénarios spécifiques à des domaines, incluant la détection de petits objets en télédétection et en conduite autonome, ainsi que la segmentation interactive fine. De plus, ACTIVE-O3 démontre également de solides capacités de raisonnement zero-shot sur le benchmark V*, sans s'appuyer sur aucune donnée de raisonnement explicite. Nous espérons que notre travail pourra fournir une base de code simple et un protocole d'évaluation pour faciliter les recherches futures sur la perception active dans les MLLMs.
English
Active vision, also known as active perception, refers to the process of
actively selecting where and how to look in order to gather task-relevant
information. It is a critical component of efficient perception and
decision-making in humans and advanced embodied agents. Recently, the use of
Multimodal Large Language Models (MLLMs) as central planning and
decision-making modules in robotic systems has gained extensive attention.
However, despite the importance of active perception in embodied intelligence,
there is little to no exploration of how MLLMs can be equipped with or learn
active perception capabilities. In this paper, we first provide a systematic
definition of MLLM-based active perception tasks. We point out that the
recently proposed GPT-o3 model's zoom-in search strategy can be regarded as a
special case of active perception; however, it still suffers from low search
efficiency and inaccurate region selection. To address these issues, we propose
ACTIVE-O3, a purely reinforcement learning based training framework built on
top of GRPO, designed to equip MLLMs with active perception capabilities. We
further establish a comprehensive benchmark suite to evaluate ACTIVE-O3 across
both general open-world tasks, such as small-object and dense object grounding,
and domain-specific scenarios, including small object detection in remote
sensing and autonomous driving, as well as fine-grained interactive
segmentation. In addition, ACTIVE-O3 also demonstrates strong zero-shot
reasoning abilities on the V* Benchmark, without relying on any explicit
reasoning data. We hope that our work can provide a simple codebase and
evaluation protocol to facilitate future research on active perception in
MLLMs.Summary
AI-Generated Summary