Active-O3: GRPOによる能動的知覚を用いてマルチモーダル大規模言語モデルを強化する
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO
May 27, 2025
著者: Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen
cs.AI
要旨
アクティブビジョン(Active Vision)、またはアクティブ知覚(Active Perception)とは、タスクに関連する情報を収集するために、どこをどのように見るかを積極的に選択するプロセスを指します。これは、人間や高度なエンボディエージェントにおける効率的な知覚と意思決定の重要な要素です。最近、ロボットシステムの中心的な計画・意思決定モジュールとしてマルチモーダル大規模言語モデル(MLLMs)の使用が広く注目されています。しかし、エンボディエージェントの知能におけるアクティブ知覚の重要性にもかかわらず、MLLMsがアクティブ知覚能力を備える、または学習する方法についてはほとんど検討されていません。本論文では、まずMLLMベースのアクティブ知覚タスクを体系的に定義します。最近提案されたGPT-o3モデルのズームイン検索戦略は、アクティブ知覚の特殊なケースと見なすことができますが、検索効率の低さや領域選択の不正確さといった課題が残っています。これらの課題を解決するため、我々はGRPOを基盤とした純粋な強化学習ベースのトレーニングフレームワークであるACTIVE-O3を提案し、MLLMsにアクティブ知覚能力を備えさせます。さらに、ACTIVE-O3を評価するための包括的なベンチマークスイートを確立し、小物体や密集物体のグラウンディングといった一般的なオープンワールドタスクから、リモートセンシングや自動運転における小物体検出、細粒度インタラクティブセグメンテーションといったドメイン固有のシナリオまで幅広く検証します。加えて、ACTIVE-O3はV*ベンチマークにおいて、明示的な推論データに依存することなく、強力なゼロショット推論能力を示します。我々の研究が、MLLMsにおけるアクティブ知覚の将来の研究を促進するためのシンプルなコードベースと評価プロトコルを提供することを期待しています。
English
Active vision, also known as active perception, refers to the process of
actively selecting where and how to look in order to gather task-relevant
information. It is a critical component of efficient perception and
decision-making in humans and advanced embodied agents. Recently, the use of
Multimodal Large Language Models (MLLMs) as central planning and
decision-making modules in robotic systems has gained extensive attention.
However, despite the importance of active perception in embodied intelligence,
there is little to no exploration of how MLLMs can be equipped with or learn
active perception capabilities. In this paper, we first provide a systematic
definition of MLLM-based active perception tasks. We point out that the
recently proposed GPT-o3 model's zoom-in search strategy can be regarded as a
special case of active perception; however, it still suffers from low search
efficiency and inaccurate region selection. To address these issues, we propose
ACTIVE-O3, a purely reinforcement learning based training framework built on
top of GRPO, designed to equip MLLMs with active perception capabilities. We
further establish a comprehensive benchmark suite to evaluate ACTIVE-O3 across
both general open-world tasks, such as small-object and dense object grounding,
and domain-specific scenarios, including small object detection in remote
sensing and autonomous driving, as well as fine-grained interactive
segmentation. In addition, ACTIVE-O3 also demonstrates strong zero-shot
reasoning abilities on the V* Benchmark, without relying on any explicit
reasoning data. We hope that our work can provide a simple codebase and
evaluation protocol to facilitate future research on active perception in
MLLMs.Summary
AI-Generated Summary