Active-O3: Het versterken van multimodale grote taalmodellen met actieve waarneming via GRPO
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO
May 27, 2025
Auteurs: Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen
cs.AI
Samenvatting
Actief zien, ook wel bekend als actieve perceptie, verwijst naar het proces van actief selecteren waar en hoe te kijken om taakrelevante informatie te verzamelen. Het is een cruciaal onderdeel van efficiënte perceptie en besluitvorming bij mensen en geavanceerde belichaamde agents. Recentelijk heeft het gebruik van Multimodale Grote Taalmodellen (MLLMs) als centrale plannings- en besluitvormingsmodules in robotsystemen uitgebreide aandacht gekregen. Echter, ondanks het belang van actieve perceptie in belichaamde intelligentie, is er weinig tot geen onderzoek gedaan naar hoe MLLMs kunnen worden uitgerust met of actieve perceptievaardigheden kunnen leren. In dit artikel geven we eerst een systematische definitie van MLLM-gebaseerde actieve perceptietaken. We wijzen erop dat de recent voorgestelde zoom-in zoekstrategie van het GPT-o3 model kan worden beschouwd als een speciaal geval van actieve perceptie; het lijdt echter nog steeds aan lage zoekefficiëntie en onnauwkeurige regioselectie. Om deze problemen aan te pakken, stellen we ACTIVE-O3 voor, een puur op reinforcement learning gebaseerd trainingsframework gebouwd bovenop GRPO, ontworpen om MLLMs uit te rusten met actieve perceptievaardigheden. We stellen verder een uitgebreide benchmark suite op om ACTIVE-O3 te evalueren over zowel algemene open-wereldtaken, zoals kleine-object- en dichte objectverankering, als domeinspecifieke scenario's, waaronder kleine objectdetectie in remote sensing en autonoom rijden, evenals fijnmazige interactieve segmentatie. Daarnaast toont ACTIVE-O3 ook sterke zero-shot redeneervaardigheden op de V* Benchmark, zonder te vertrouwen op expliciete redeneergegevens. We hopen dat ons werk een eenvoudige codebase en evaluatieprotocol kan bieden om toekomstig onderzoek naar actieve perceptie in MLLMs te vergemakkelijken.
English
Active vision, also known as active perception, refers to the process of
actively selecting where and how to look in order to gather task-relevant
information. It is a critical component of efficient perception and
decision-making in humans and advanced embodied agents. Recently, the use of
Multimodal Large Language Models (MLLMs) as central planning and
decision-making modules in robotic systems has gained extensive attention.
However, despite the importance of active perception in embodied intelligence,
there is little to no exploration of how MLLMs can be equipped with or learn
active perception capabilities. In this paper, we first provide a systematic
definition of MLLM-based active perception tasks. We point out that the
recently proposed GPT-o3 model's zoom-in search strategy can be regarded as a
special case of active perception; however, it still suffers from low search
efficiency and inaccurate region selection. To address these issues, we propose
ACTIVE-O3, a purely reinforcement learning based training framework built on
top of GRPO, designed to equip MLLMs with active perception capabilities. We
further establish a comprehensive benchmark suite to evaluate ACTIVE-O3 across
both general open-world tasks, such as small-object and dense object grounding,
and domain-specific scenarios, including small object detection in remote
sensing and autonomous driving, as well as fine-grained interactive
segmentation. In addition, ACTIVE-O3 also demonstrates strong zero-shot
reasoning abilities on the V* Benchmark, without relying on any explicit
reasoning data. We hope that our work can provide a simple codebase and
evaluation protocol to facilitate future research on active perception in
MLLMs.