OceanGym: Een Benchmarkomgeving voor Onderwatervormgegeven Agents

Samenvatting

We introduceren OceanGym, de eerste uitgebreide benchmark voor onderwater-embodied agents in de oceaan, ontworpen om AI vooruit te helpen in een van de meest veeleisende real-world omgevingen. In tegenstelling tot terrestrische of luchtgebieden, bieden onderwateromgevingen extreme perceptuele en besluitvormingsuitdagingen, waaronder slecht zicht en dynamische oceaanstromingen, wat effectieve inzet van agents buitengewoon moeilijk maakt. OceanGym omvat acht realistische taakdomeinen en een uniform agent-framework aangedreven door Multi-modale Large Language Models (MLLMs), dat perceptie, geheugen en sequentiële besluitvorming integreert. Agents moeten optische en sonardata begrijpen, autonoom complexe omgevingen verkennen en langetermijndoelen bereiken onder deze barre omstandigheden. Uitgebreide experimenten tonen aanzienlijke verschillen tussen state-of-the-art MLLM-aangedreven agents en menselijke experts, wat de blijvende moeilijkheid van perceptie, planning en aanpassingsvermogen in onderwateroceaanomgevingen benadrukt. Door een hoogwaardig, rigoureus ontworpen platform te bieden, stelt OceanGym een testomgeving in voor het ontwikkelen van robuuste embodied AI en het overdragen van deze capaciteiten naar real-world autonome onderwateroceaanvoertuigen, wat een beslissende stap markeert naar intelligente agents die kunnen opereren in een van de laatste onontgonnen gebieden van de aarde. De code en data zijn beschikbaar op https://github.com/OceanGPT/OceanGym.

English

We introduce OceanGym, the first comprehensive benchmark for ocean underwater embodied agents, designed to advance AI in one of the most demanding real-world environments. Unlike terrestrial or aerial domains, underwater settings present extreme perceptual and decision-making challenges, including low visibility, dynamic ocean currents, making effective agent deployment exceptionally difficult. OceanGym encompasses eight realistic task domains and a unified agent framework driven by Multi-modal Large Language Models (MLLMs), which integrates perception, memory, and sequential decision-making. Agents are required to comprehend optical and sonar data, autonomously explore complex environments, and accomplish long-horizon objectives under these harsh conditions. Extensive experiments reveal substantial gaps between state-of-the-art MLLM-driven agents and human experts, highlighting the persistent difficulty of perception, planning, and adaptability in ocean underwater environments. By providing a high-fidelity, rigorously designed platform, OceanGym establishes a testbed for developing robust embodied AI and transferring these capabilities to real-world autonomous ocean underwater vehicles, marking a decisive step toward intelligent agents capable of operating in one of Earth's last unexplored frontiers. The code and data are available at https://github.com/OceanGPT/OceanGym.

OceanGym: Een Benchmarkomgeving voor Onderwatervormgegeven Agents

OceanGym: A Benchmark Environment for Underwater Embodied Agents

Samenvatting

Support