ChatPaper.aiChatPaper

OceanGym: Un Ambiente di Benchmark per Agenti Embodied Subacquei

OceanGym: A Benchmark Environment for Underwater Embodied Agents

September 30, 2025
Autori: Yida Xue, Mingjun Mao, Xiangyuan Ru, Yuqi Zhu, Baochang Ren, Shuofei Qiao, Mengru Wang, Shumin Deng, Xinyu An, Ningyu Zhang, Ying Chen, Huajun Chen
cs.AI

Abstract

Presentiamo OceanGym, il primo benchmark completo per agenti incarnati subacquei oceanici, progettato per far progredire l'IA in uno degli ambienti reali più impegnativi. A differenza dei domini terrestri o aerei, gli ambienti subacquei presentano sfide percettive e decisionali estreme, tra cui visibilità ridotta e correnti oceaniche dinamiche, rendendo il dispiegamento efficace degli agenti eccezionalmente difficile. OceanGym comprende otto domini di task realistici e un framework unificato per gli agenti guidato da Modelli Linguistici Multimodali di Grande Scala (MLLM), che integra percezione, memoria e processo decisionale sequenziale. Gli agenti devono comprendere dati ottici e sonar, esplorare autonomamente ambienti complessi e raggiungere obiettivi a lungo termine in queste condizioni avverse. Esperimenti estensivi rivelano notevoli lacune tra gli agenti all'avanguardia guidati da MLLM e gli esperti umani, evidenziando la persistente difficoltà di percezione, pianificazione e adattabilità negli ambienti subacquei oceanici. Fornendo una piattaforma ad alta fedeltà e rigorosamente progettata, OceanGym stabilisce un banco di prova per sviluppare IA incarnata robusta e trasferire queste capacità a veicoli autonomi subacquei oceanici reali, segnando un passo decisivo verso agenti intelligenti in grado di operare in una delle ultime frontiere inesplorate della Terra. Il codice e i dati sono disponibili all'indirizzo https://github.com/OceanGPT/OceanGym.
English
We introduce OceanGym, the first comprehensive benchmark for ocean underwater embodied agents, designed to advance AI in one of the most demanding real-world environments. Unlike terrestrial or aerial domains, underwater settings present extreme perceptual and decision-making challenges, including low visibility, dynamic ocean currents, making effective agent deployment exceptionally difficult. OceanGym encompasses eight realistic task domains and a unified agent framework driven by Multi-modal Large Language Models (MLLMs), which integrates perception, memory, and sequential decision-making. Agents are required to comprehend optical and sonar data, autonomously explore complex environments, and accomplish long-horizon objectives under these harsh conditions. Extensive experiments reveal substantial gaps between state-of-the-art MLLM-driven agents and human experts, highlighting the persistent difficulty of perception, planning, and adaptability in ocean underwater environments. By providing a high-fidelity, rigorously designed platform, OceanGym establishes a testbed for developing robust embodied AI and transferring these capabilities to real-world autonomous ocean underwater vehicles, marking a decisive step toward intelligent agents capable of operating in one of Earth's last unexplored frontiers. The code and data are available at https://github.com/OceanGPT/OceanGym.
PDF342October 1, 2025