OceanGym: Um Ambiente de Referência para Agentes Embarcados Subaquáticos
OceanGym: A Benchmark Environment for Underwater Embodied Agents
September 30, 2025
Autores: Yida Xue, Mingjun Mao, Xiangyuan Ru, Yuqi Zhu, Baochang Ren, Shuofei Qiao, Mengru Wang, Shumin Deng, Xinyu An, Ningyu Zhang, Ying Chen, Huajun Chen
cs.AI
Resumo
Apresentamos o OceanGym, o primeiro benchmark abrangente para agentes corporificados subaquáticos oceânicos, projetado para avançar a IA em um dos ambientes do mundo real mais desafiadores. Diferentemente de domínios terrestres ou aéreos, os cenários subaquáticos apresentam desafios extremos de percepção e tomada de decisão, incluindo visibilidade reduzida e correntes oceânicas dinâmicas, tornando a implantação eficaz de agentes excepcionalmente difícil. O OceanGym abrange oito domínios de tarefas realistas e uma estrutura unificada de agentes impulsionada por Modelos de Linguagem de Grande Escala Multimodais (MLLMs), que integra percepção, memória e tomada de decisão sequencial. Os agentes são obrigados a compreender dados ópticos e de sonar, explorar ambientes complexos de forma autônoma e alcançar objetivos de longo prazo nessas condições adversas. Experimentos extensivos revelam lacunas significativas entre os agentes impulsionados por MLLMs de última geração e especialistas humanos, destacando a dificuldade persistente de percepção, planejamento e adaptabilidade em ambientes subaquáticos oceânicos. Ao fornecer uma plataforma de alta fidelidade e rigorosamente projetada, o OceanGym estabelece um ambiente de teste para o desenvolvimento de IA corporificada robusta e a transferência dessas capacidades para veículos autônomos subaquáticos oceânicos do mundo real, marcando um passo decisivo em direção a agentes inteligentes capazes de operar em uma das últimas fronteiras inexploradas da Terra. O código e os dados estão disponíveis em https://github.com/OceanGPT/OceanGym.
English
We introduce OceanGym, the first comprehensive benchmark for ocean underwater
embodied agents, designed to advance AI in one of the most demanding real-world
environments. Unlike terrestrial or aerial domains, underwater settings present
extreme perceptual and decision-making challenges, including low visibility,
dynamic ocean currents, making effective agent deployment exceptionally
difficult. OceanGym encompasses eight realistic task domains and a unified
agent framework driven by Multi-modal Large Language Models (MLLMs), which
integrates perception, memory, and sequential decision-making. Agents are
required to comprehend optical and sonar data, autonomously explore complex
environments, and accomplish long-horizon objectives under these harsh
conditions. Extensive experiments reveal substantial gaps between
state-of-the-art MLLM-driven agents and human experts, highlighting the
persistent difficulty of perception, planning, and adaptability in ocean
underwater environments. By providing a high-fidelity, rigorously designed
platform, OceanGym establishes a testbed for developing robust embodied AI and
transferring these capabilities to real-world autonomous ocean underwater
vehicles, marking a decisive step toward intelligent agents capable of
operating in one of Earth's last unexplored frontiers. The code and data are
available at https://github.com/OceanGPT/OceanGym.