Active-O3: Potenziamento dei Modelli Linguistici Multimodali di Grande Scala con Percezione Attiva tramite GRPO
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO
May 27, 2025
Autori: Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen
cs.AI
Abstract
La visione attiva, nota anche come percezione attiva, si riferisce al processo di selezionare attivamente dove e come guardare per raccogliere informazioni rilevanti per il compito. È un componente critico per una percezione e una presa di decisione efficienti negli esseri umani e negli agenti incarnati avanzati. Recentemente, l'uso di Modelli Linguistici Multimodali di Grande Scala (MLLMs) come moduli centrali di pianificazione e decisione nei sistemi robotici ha attirato molta attenzione. Tuttavia, nonostante l'importanza della percezione attiva nell'intelligenza incarnata, c'è poca o nessuna esplorazione su come gli MLLMs possano essere dotati o apprendere capacità di percezione attiva. In questo articolo, forniamo innanzitutto una definizione sistematica dei compiti di percezione attiva basati su MLLM. Osserviamo che la strategia di ricerca di zoom-in del modello GPT-o3, recentemente proposto, può essere considerata un caso speciale di percezione attiva; tuttavia, soffre ancora di bassa efficienza di ricerca e di una selezione imprecisa delle regioni. Per affrontare questi problemi, proponiamo ACTIVE-O3, un framework di addestramento basato esclusivamente sull'apprendimento per rinforzo, costruito su GRPO, progettato per dotare gli MLLMs di capacità di percezione attiva. Inoltre, stabiliamo una suite di benchmark completa per valutare ACTIVE-O3 sia in compiti generali del mondo aperto, come il grounding di oggetti piccoli e densi, sia in scenari specifici di dominio, inclusi il rilevamento di oggetti piccoli nel telerilevamento e nella guida autonoma, nonché la segmentazione interattiva fine-grana. In aggiunta, ACTIVE-O3 dimostra anche forti capacità di ragionamento zero-shot sul Benchmark V*, senza fare affidamento su dati espliciti di ragionamento. Speriamo che il nostro lavoro possa fornire una semplice base di codice e un protocollo di valutazione per facilitare future ricerche sulla percezione attiva negli MLLMs.
English
Active vision, also known as active perception, refers to the process of
actively selecting where and how to look in order to gather task-relevant
information. It is a critical component of efficient perception and
decision-making in humans and advanced embodied agents. Recently, the use of
Multimodal Large Language Models (MLLMs) as central planning and
decision-making modules in robotic systems has gained extensive attention.
However, despite the importance of active perception in embodied intelligence,
there is little to no exploration of how MLLMs can be equipped with or learn
active perception capabilities. In this paper, we first provide a systematic
definition of MLLM-based active perception tasks. We point out that the
recently proposed GPT-o3 model's zoom-in search strategy can be regarded as a
special case of active perception; however, it still suffers from low search
efficiency and inaccurate region selection. To address these issues, we propose
ACTIVE-O3, a purely reinforcement learning based training framework built on
top of GRPO, designed to equip MLLMs with active perception capabilities. We
further establish a comprehensive benchmark suite to evaluate ACTIVE-O3 across
both general open-world tasks, such as small-object and dense object grounding,
and domain-specific scenarios, including small object detection in remote
sensing and autonomous driving, as well as fine-grained interactive
segmentation. In addition, ACTIVE-O3 also demonstrates strong zero-shot
reasoning abilities on the V* Benchmark, without relying on any explicit
reasoning data. We hope that our work can provide a simple codebase and
evaluation protocol to facilitate future research on active perception in
MLLMs.