OceanGym: Un Ambiente di Benchmark per Agenti Embodied Subacquei
OceanGym: A Benchmark Environment for Underwater Embodied Agents
September 30, 2025
Autori: Yida Xue, Mingjun Mao, Xiangyuan Ru, Yuqi Zhu, Baochang Ren, Shuofei Qiao, Mengru Wang, Shumin Deng, Xinyu An, Ningyu Zhang, Ying Chen, Huajun Chen
cs.AI
Abstract
Presentiamo OceanGym, il primo benchmark completo per agenti incarnati subacquei oceanici, progettato per far progredire l'IA in uno degli ambienti reali più impegnativi. A differenza dei domini terrestri o aerei, gli ambienti subacquei presentano sfide percettive e decisionali estreme, tra cui visibilità ridotta e correnti oceaniche dinamiche, rendendo il dispiegamento efficace degli agenti eccezionalmente difficile. OceanGym comprende otto domini di task realistici e un framework unificato per gli agenti guidato da Modelli Linguistici Multimodali di Grande Scala (MLLM), che integra percezione, memoria e processo decisionale sequenziale. Gli agenti devono comprendere dati ottici e sonar, esplorare autonomamente ambienti complessi e raggiungere obiettivi a lungo termine in queste condizioni avverse. Esperimenti estensivi rivelano notevoli lacune tra gli agenti all'avanguardia guidati da MLLM e gli esperti umani, evidenziando la persistente difficoltà di percezione, pianificazione e adattabilità negli ambienti subacquei oceanici. Fornendo una piattaforma ad alta fedeltà e rigorosamente progettata, OceanGym stabilisce un banco di prova per sviluppare IA incarnata robusta e trasferire queste capacità a veicoli autonomi subacquei oceanici reali, segnando un passo decisivo verso agenti intelligenti in grado di operare in una delle ultime frontiere inesplorate della Terra. Il codice e i dati sono disponibili all'indirizzo https://github.com/OceanGPT/OceanGym.
English
We introduce OceanGym, the first comprehensive benchmark for ocean underwater
embodied agents, designed to advance AI in one of the most demanding real-world
environments. Unlike terrestrial or aerial domains, underwater settings present
extreme perceptual and decision-making challenges, including low visibility,
dynamic ocean currents, making effective agent deployment exceptionally
difficult. OceanGym encompasses eight realistic task domains and a unified
agent framework driven by Multi-modal Large Language Models (MLLMs), which
integrates perception, memory, and sequential decision-making. Agents are
required to comprehend optical and sonar data, autonomously explore complex
environments, and accomplish long-horizon objectives under these harsh
conditions. Extensive experiments reveal substantial gaps between
state-of-the-art MLLM-driven agents and human experts, highlighting the
persistent difficulty of perception, planning, and adaptability in ocean
underwater environments. By providing a high-fidelity, rigorously designed
platform, OceanGym establishes a testbed for developing robust embodied AI and
transferring these capabilities to real-world autonomous ocean underwater
vehicles, marking a decisive step toward intelligent agents capable of
operating in one of Earth's last unexplored frontiers. The code and data are
available at https://github.com/OceanGPT/OceanGym.