ChatPaper.aiChatPaper

OceanGym: Un Entorno de Referencia para Agentes Embebidos Subacuáticos

OceanGym: A Benchmark Environment for Underwater Embodied Agents

September 30, 2025
Autores: Yida Xue, Mingjun Mao, Xiangyuan Ru, Yuqi Zhu, Baochang Ren, Shuofei Qiao, Mengru Wang, Shumin Deng, Xinyu An, Ningyu Zhang, Ying Chen, Huajun Chen
cs.AI

Resumen

Presentamos OceanGym, el primer punto de referencia integral para agentes corporizados en entornos submarinos, diseñado para impulsar la IA en uno de los entornos del mundo real más exigentes. A diferencia de los dominios terrestres o aéreos, los entornos submarinos presentan desafíos extremos de percepción y toma de decisiones, incluyendo baja visibilidad y corrientes oceánicas dinámicas, lo que hace que el despliegue efectivo de agentes sea excepcionalmente difícil. OceanGym abarca ocho dominios de tareas realistas y un marco unificado de agentes impulsado por Modelos de Lenguaje Multimodales (MLLMs), que integra percepción, memoria y toma de decisiones secuencial. Los agentes deben comprender datos ópticos y de sonar, explorar de manera autónoma entornos complejos y cumplir objetivos a largo plazo bajo estas condiciones adversas. Experimentos extensivos revelan brechas significativas entre los agentes impulsados por MLLMs de última generación y los expertos humanos, destacando la dificultad persistente de la percepción, planificación y adaptabilidad en entornos submarinos. Al proporcionar una plataforma de alta fidelidad y rigurosamente diseñada, OceanGym establece un banco de pruebas para desarrollar IA corporizada robusta y transferir estas capacidades a vehículos submarinos autónomos del mundo real, marcando un paso decisivo hacia agentes inteligentes capaces de operar en una de las últimas fronteras inexploradas de la Tierra. El código y los datos están disponibles en https://github.com/OceanGPT/OceanGym.
English
We introduce OceanGym, the first comprehensive benchmark for ocean underwater embodied agents, designed to advance AI in one of the most demanding real-world environments. Unlike terrestrial or aerial domains, underwater settings present extreme perceptual and decision-making challenges, including low visibility, dynamic ocean currents, making effective agent deployment exceptionally difficult. OceanGym encompasses eight realistic task domains and a unified agent framework driven by Multi-modal Large Language Models (MLLMs), which integrates perception, memory, and sequential decision-making. Agents are required to comprehend optical and sonar data, autonomously explore complex environments, and accomplish long-horizon objectives under these harsh conditions. Extensive experiments reveal substantial gaps between state-of-the-art MLLM-driven agents and human experts, highlighting the persistent difficulty of perception, planning, and adaptability in ocean underwater environments. By providing a high-fidelity, rigorously designed platform, OceanGym establishes a testbed for developing robust embodied AI and transferring these capabilities to real-world autonomous ocean underwater vehicles, marking a decisive step toward intelligent agents capable of operating in one of Earth's last unexplored frontiers. The code and data are available at https://github.com/OceanGPT/OceanGym.
PDF231October 1, 2025