OceanGym : Un environnement de référence pour les agents incarnés sous-marins

papers.abstract

Nous présentons OceanGym, le premier benchmark complet pour les agents incarnés sous-marins, conçu pour faire progresser l'IA dans l'un des environnements réels les plus exigeants. Contrairement aux domaines terrestres ou aériens, les milieux sous-marins présentent des défis perceptuels et décisionnels extrêmes, incluant une faible visibilité et des courants océaniques dynamiques, rendant le déploiement efficace d'agents exceptionnellement difficile. OceanGym englobe huit domaines de tâches réalistes et un cadre d'agent unifié piloté par des Modèles de Langage Multimodaux (MLLMs), qui intègrent perception, mémoire et prise de décision séquentielle. Les agents doivent comprendre les données optiques et sonar, explorer de manière autonome des environnements complexes et accomplir des objectifs à long terme dans ces conditions difficiles. Des expériences approfondies révèlent des écarts substantiels entre les agents pilotés par les MLLM de pointe et les experts humains, soulignant la difficulté persistante de la perception, de la planification et de l'adaptabilité dans les environnements sous-marins. En fournissant une plateforme haute fidélité et rigoureusement conçue, OceanGym établit un banc d'essai pour développer une IA incarnée robuste et transférer ces capacités à des véhicules sous-marins autonomes réels, marquant une étape décisive vers des agents intelligents capables d'opérer dans l'une des dernières frontières inexplorées de la Terre. Le code et les données sont disponibles à l'adresse https://github.com/OceanGPT/OceanGym.

English

We introduce OceanGym, the first comprehensive benchmark for ocean underwater embodied agents, designed to advance AI in one of the most demanding real-world environments. Unlike terrestrial or aerial domains, underwater settings present extreme perceptual and decision-making challenges, including low visibility, dynamic ocean currents, making effective agent deployment exceptionally difficult. OceanGym encompasses eight realistic task domains and a unified agent framework driven by Multi-modal Large Language Models (MLLMs), which integrates perception, memory, and sequential decision-making. Agents are required to comprehend optical and sonar data, autonomously explore complex environments, and accomplish long-horizon objectives under these harsh conditions. Extensive experiments reveal substantial gaps between state-of-the-art MLLM-driven agents and human experts, highlighting the persistent difficulty of perception, planning, and adaptability in ocean underwater environments. By providing a high-fidelity, rigorously designed platform, OceanGym establishes a testbed for developing robust embodied AI and transferring these capabilities to real-world autonomous ocean underwater vehicles, marking a decisive step toward intelligent agents capable of operating in one of Earth's last unexplored frontiers. The code and data are available at https://github.com/OceanGPT/OceanGym.

OceanGym : Un environnement de référence pour les agents incarnés sous-marins

OceanGym: A Benchmark Environment for Underwater Embodied Agents

papers.abstract

Support