ChatPaper.aiChatPaper

OceanGym: Эталонная среда для подводных автономных агентов

OceanGym: A Benchmark Environment for Underwater Embodied Agents

September 30, 2025
Авторы: Yida Xue, Mingjun Mao, Xiangyuan Ru, Yuqi Zhu, Baochang Ren, Shuofei Qiao, Mengru Wang, Shumin Deng, Xinyu An, Ningyu Zhang, Ying Chen, Huajun Chen
cs.AI

Аннотация

Мы представляем OceanGym — первый всеобъемлющий бенчмарк для воплощенных агентов, работающих в океанической подводной среде, разработанный для продвижения ИИ в одной из самых сложных реальных сред. В отличие от наземных или воздушных областей, подводные условия представляют собой экстремальные вызовы для восприятия и принятия решений, включая низкую видимость и динамические океанические течения, что делает эффективное развертывание агентов исключительно трудным. OceanGym охватывает восемь реалистичных задач и унифицированную структуру агента, управляемую мультимодальными большими языковыми моделями (MLLM), которая интегрирует восприятие, память и последовательное принятие решений. Агенты должны анализировать оптические и гидроакустические данные, автономно исследовать сложные среды и достигать долгосрочных целей в этих суровых условиях. Масштабные эксперименты выявили значительный разрыв между современными агентами на основе MLLM и экспертами-людьми, подчеркивая сохраняющиеся трудности в восприятии, планировании и адаптации в подводных океанических условиях. Предоставляя высокоточную и тщательно разработанную платформу, OceanGym создает тестовую среду для разработки устойчивых воплощенных ИИ и переноса этих возможностей на реальные автономные подводные аппараты, делая решительный шаг к созданию интеллектуальных агентов, способных работать в одной из последних неисследованных областей Земли. Код и данные доступны по адресу https://github.com/OceanGPT/OceanGym.
English
We introduce OceanGym, the first comprehensive benchmark for ocean underwater embodied agents, designed to advance AI in one of the most demanding real-world environments. Unlike terrestrial or aerial domains, underwater settings present extreme perceptual and decision-making challenges, including low visibility, dynamic ocean currents, making effective agent deployment exceptionally difficult. OceanGym encompasses eight realistic task domains and a unified agent framework driven by Multi-modal Large Language Models (MLLMs), which integrates perception, memory, and sequential decision-making. Agents are required to comprehend optical and sonar data, autonomously explore complex environments, and accomplish long-horizon objectives under these harsh conditions. Extensive experiments reveal substantial gaps between state-of-the-art MLLM-driven agents and human experts, highlighting the persistent difficulty of perception, planning, and adaptability in ocean underwater environments. By providing a high-fidelity, rigorously designed platform, OceanGym establishes a testbed for developing robust embodied AI and transferring these capabilities to real-world autonomous ocean underwater vehicles, marking a decisive step toward intelligent agents capable of operating in one of Earth's last unexplored frontiers. The code and data are available at https://github.com/OceanGPT/OceanGym.
PDF231October 1, 2025