ChatPaper.aiChatPaper

Active-O3: Расширение возможностей мультимодальных больших языковых моделей с активным восприятием через GRPO

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

May 27, 2025
Авторы: Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen
cs.AI

Аннотация

Активное зрение, также известное как активное восприятие, относится к процессу активного выбора того, куда и как смотреть, чтобы собирать информацию, релевантную задаче. Это критически важный компонент эффективного восприятия и принятия решений у людей и продвинутых воплощенных агентов. В последнее время использование мультимодальных больших языковых моделей (MLLMs) в качестве центральных модулей планирования и принятия решений в роботизированных системах привлекает значительное внимание. Однако, несмотря на важность активного восприятия в воплощенном интеллекте, практически отсутствуют исследования того, как MLLMs могут быть оснащены или научиться способностям активного восприятия. В данной работе мы сначала предлагаем систематическое определение задач активного восприятия на основе MLLMs. Мы отмечаем, что недавно предложенная стратегия поиска с увеличением масштаба модели GPT-o3 может рассматриваться как частный случай активного восприятия; однако она все еще страдает от низкой эффективности поиска и неточного выбора областей. Для решения этих проблем мы предлагаем ACTIVE-O3, чисто обучаемую на основе подкрепления структуру, построенную поверх GRPO, предназначенную для оснащения MLLMs способностями активного восприятия. Мы также создаем комплексный набор тестов для оценки ACTIVE-O3 как на общих задачах открытого мира, таких как локализация мелких и плотно расположенных объектов, так и на специализированных сценариях, включая обнаружение мелких объектов в дистанционном зондировании и автономном вождении, а также точную интерактивную сегментацию. Кроме того, ACTIVE-O3 демонстрирует сильные способности к рассуждению в условиях нулевого сэмплинга на тестовом наборе V* Benchmark, не полагаясь на какие-либо явные данные для рассуждений. Мы надеемся, что наша работа предоставит простую кодовую базу и протокол оценки, которые облегчат будущие исследования активного восприятия в MLLMs.
English
Active vision, also known as active perception, refers to the process of actively selecting where and how to look in order to gather task-relevant information. It is a critical component of efficient perception and decision-making in humans and advanced embodied agents. Recently, the use of Multimodal Large Language Models (MLLMs) as central planning and decision-making modules in robotic systems has gained extensive attention. However, despite the importance of active perception in embodied intelligence, there is little to no exploration of how MLLMs can be equipped with or learn active perception capabilities. In this paper, we first provide a systematic definition of MLLM-based active perception tasks. We point out that the recently proposed GPT-o3 model's zoom-in search strategy can be regarded as a special case of active perception; however, it still suffers from low search efficiency and inaccurate region selection. To address these issues, we propose ACTIVE-O3, a purely reinforcement learning based training framework built on top of GRPO, designed to equip MLLMs with active perception capabilities. We further establish a comprehensive benchmark suite to evaluate ACTIVE-O3 across both general open-world tasks, such as small-object and dense object grounding, and domain-specific scenarios, including small object detection in remote sensing and autonomous driving, as well as fine-grained interactive segmentation. In addition, ACTIVE-O3 also demonstrates strong zero-shot reasoning abilities on the V* Benchmark, without relying on any explicit reasoning data. We hope that our work can provide a simple codebase and evaluation protocol to facilitate future research on active perception in MLLMs.

Summary

AI-Generated Summary

PDF132May 28, 2025