OceanGym: Eine Benchmark-Umgebung für Unterwasser-Embodied-Agents

papers.abstract

Wir stellen OceanGym vor, den ersten umfassenden Benchmark für verkörperte Agenten in der Unterwasserwelt der Ozeane, der darauf abzielt, die KI in einer der anspruchsvollsten realen Umgebungen voranzubringen. Im Gegensatz zu terrestrischen oder luftgestützten Domänen stellen Unterwasserumgebungen extreme Wahrnehmungs- und Entscheidungsherausforderungen dar, darunter schlechte Sicht und dynamische Meeresströmungen, was den effektiven Einsatz von Agenten außerordentlich schwierig macht. OceanGym umfasst acht realistische Aufgabenbereiche und ein einheitliches Agenten-Framework, das von Multi-modalen Großen Sprachmodellen (MLLMs) angetrieben wird und Wahrnehmung, Gedächtnis und sequenzielle Entscheidungsfindung integriert. Die Agenten müssen optische und Sonardaten verstehen, komplexe Umgebungen autonom erkunden und langfristige Ziele unter diesen rauen Bedingungen erreichen. Umfangreiche Experimente zeigen erhebliche Lücken zwischen den modernsten MLLM-gesteuerten Agenten und menschlichen Experten auf und unterstreichen die anhaltenden Schwierigkeiten bei der Wahrnehmung, Planung und Anpassungsfähigkeit in Unterwasserumgebungen der Ozeane. Durch die Bereitstellung einer hochauflösenden, sorgfältig gestalteten Plattform schafft OceanGym ein Testfeld für die Entwicklung robuster verkörperter KI und die Übertragung dieser Fähigkeiten auf reale autonome Unterwasserfahrzeuge, was einen entscheidenden Schritt hin zu intelligenten Agenten markiert, die in einer der letzten unerforschten Grenzen der Erde operieren können. Der Code und die Daten sind unter https://github.com/OceanGPT/OceanGym verfügbar.

English

We introduce OceanGym, the first comprehensive benchmark for ocean underwater embodied agents, designed to advance AI in one of the most demanding real-world environments. Unlike terrestrial or aerial domains, underwater settings present extreme perceptual and decision-making challenges, including low visibility, dynamic ocean currents, making effective agent deployment exceptionally difficult. OceanGym encompasses eight realistic task domains and a unified agent framework driven by Multi-modal Large Language Models (MLLMs), which integrates perception, memory, and sequential decision-making. Agents are required to comprehend optical and sonar data, autonomously explore complex environments, and accomplish long-horizon objectives under these harsh conditions. Extensive experiments reveal substantial gaps between state-of-the-art MLLM-driven agents and human experts, highlighting the persistent difficulty of perception, planning, and adaptability in ocean underwater environments. By providing a high-fidelity, rigorously designed platform, OceanGym establishes a testbed for developing robust embodied AI and transferring these capabilities to real-world autonomous ocean underwater vehicles, marking a decisive step toward intelligent agents capable of operating in one of Earth's last unexplored frontiers. The code and data are available at https://github.com/OceanGPT/OceanGym.

OceanGym: Eine Benchmark-Umgebung für Unterwasser-Embodied-Agents

OceanGym: A Benchmark Environment for Underwater Embodied Agents

papers.abstract

Support