ChatPaper.aiChatPaper

Active-O3: Stärkung multimodaler großer Sprachmodelle durch aktive Wahrnehmung mittels GRPO

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

May 27, 2025
Autoren: Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen
cs.AI

Zusammenfassung

Aktives Sehen, auch bekannt als aktive Wahrnehmung, bezeichnet den Prozess der aktiven Auswahl von Ort und Art des Blickens, um aufgabenrelevante Informationen zu sammeln. Es ist ein entscheidender Bestandteil effizienter Wahrnehmung und Entscheidungsfindung bei Menschen und fortgeschrittenen verkörperten Agenten. In jüngster Zeit hat die Verwendung von Multimodalen Großen Sprachmodellen (MLLMs) als zentrale Planungs- und Entscheidungsmodule in robotischen Systemen große Aufmerksamkeit erregt. Trotz der Bedeutung der aktiven Wahrnehmung für verkörperte Intelligenz gibt es jedoch kaum Untersuchungen dazu, wie MLLMs mit aktiven Wahrnehmungsfähigkeiten ausgestattet werden oder diese erlernen können. In diesem Artikel liefern wir zunächst eine systematische Definition von MLLM-basierten aktiven Wahrnehmungsaufgaben. Wir weisen darauf hin, dass die kürzlich vorgeschlagene Zoom-in-Suchstrategie des GPT-o3-Modells als ein Spezialfall der aktiven Wahrnehmung betrachtet werden kann; sie leidet jedoch immer noch unter geringer Such effizienz und ungenauer Bereichsauswahl. Um diese Probleme zu lösen, schlagen wir ACTIVE-O3 vor, ein rein auf Verstärkungslernen basierendes Trainingsframework, das auf GRPO aufbaut und darauf abzielt, MLLMs mit aktiven Wahrnehmungsfähigkeiten auszustatten. Wir etablieren weiterhin einen umfassenden Benchmark-Suite, um ACTIVE-O3 sowohl bei allgemeinen Open-World-Aufgaben wie der Lokalisierung kleiner und dichter Objekte als auch bei domänenspezifischen Szenarien, einschließlich der Erkennung kleiner Objekte in der Fernerkundung und im autonomen Fahren sowie der feinkörnigen interaktiven Segmentierung, zu evaluieren. Darüber hinaus zeigt ACTIVE-O3 auch starke Zero-Shot-Reasoning-Fähigkeiten auf dem V*-Benchmark, ohne dabei auf explizite Reasoning-Daten angewiesen zu sein. Wir hoffen, dass unsere Arbeit eine einfache Codebasis und ein Evaluationsprotokoll bereitstellt, um zukünftige Forschungen zur aktiven Wahrnehmung in MLLMs zu erleichtern.
English
Active vision, also known as active perception, refers to the process of actively selecting where and how to look in order to gather task-relevant information. It is a critical component of efficient perception and decision-making in humans and advanced embodied agents. Recently, the use of Multimodal Large Language Models (MLLMs) as central planning and decision-making modules in robotic systems has gained extensive attention. However, despite the importance of active perception in embodied intelligence, there is little to no exploration of how MLLMs can be equipped with or learn active perception capabilities. In this paper, we first provide a systematic definition of MLLM-based active perception tasks. We point out that the recently proposed GPT-o3 model's zoom-in search strategy can be regarded as a special case of active perception; however, it still suffers from low search efficiency and inaccurate region selection. To address these issues, we propose ACTIVE-O3, a purely reinforcement learning based training framework built on top of GRPO, designed to equip MLLMs with active perception capabilities. We further establish a comprehensive benchmark suite to evaluate ACTIVE-O3 across both general open-world tasks, such as small-object and dense object grounding, and domain-specific scenarios, including small object detection in remote sensing and autonomous driving, as well as fine-grained interactive segmentation. In addition, ACTIVE-O3 also demonstrates strong zero-shot reasoning abilities on the V* Benchmark, without relying on any explicit reasoning data. We hope that our work can provide a simple codebase and evaluation protocol to facilitate future research on active perception in MLLMs.

Summary

AI-Generated Summary

PDF132May 28, 2025